DE69634221T2

DE69634221T2 - Verfahren und Gerät zur Verarbeitung visueller Information

Info

Publication number: DE69634221T2
Application number: DE69634221T
Authority: DE
Inventors: Teruyoshi Washizawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-03-31
Filing date: 1996-03-27
Publication date: 2006-05-18
Anticipated expiration: 2016-03-28
Also published as: US6466692B1; US6115480A; DE69634221D1; EP0737938A2; EP0737938B1; CA2172791C; CA2172791A1; EP0737938A3

Description

Die vorliegende Erfindung betrifft die Steuerung der Betrachtungsrichtung eines Betrachtungsgerätes. Die Steuerung läßt sich beispielsweise anwenden bei einer Eingabeeinheit, einer Bildcodier- und Decodiereinheit, einer Bilderkennungseinheit, einer Bildwiederherstellungseinheit, einer Überwachungseinheit, einem automatischen Fahrzeug oder einem Roboter.
Lebende Organismus haben Funktionen, die in der Lage sind, die Umgebung genau zu einem Ausmaß eines Erfordernisses unter Verwendung einer endlichen Zahl von Verarbeitungseinheiten zu erkennen und befassen sich mit der erkannten Umgebung. Der Dynamikbereich derartiger Signale, die erforderlich sind zum Erkennen der Umgebung, ist sehr weit, wenn alle möglichen Situationen angenommen werden. Was die visuelle Information beispielsweise angeht, so sind visuelle Sensoren lebender Organismen tatsächlich endlich. Jedoch erstreckt sich die Umgebung in allen Azimutrichtungen. Folglich haben lebende Organismen kein Übertragungsmittel und müssen Signale mit erforderlicher Auflösung für alle Azimutrichtungen für die Umgebung erkennen. Wenn ein lebender Organismus ein Übertragungsmittel hat, das heißt, ein Mittel zum Ändern der Beobachtungsparameter für den Sensor, kann die Belastung des visuellen Erkennungssystem für den lebenden Organismus beträchtlich verringert werden. Der Grund hierfür liegt darin, daß die in Betracht gezogenen Plätze als bedeutungsvoll zum Erkennen erforderlich sind, mit Eingaben in hinreichend hoher Auflösung vollziehen zu können, und die Eingabe ist in anderen Fällen nicht erforderlich.
Ein herkömmliches Bildeingabegerät ist eingerichtet worden, gleichförmig ein Gegenstandsbild abzutasten, wie es eine CCD-Kamera oder ein Scanner ausführt. Ein Bildeingabegerät der vorstehenden Art kann Bilddaten endlicher Zonen mit einer gewissen Auflösung erzielen. Wenn ein Bild zu einem Abschnitt visueller Information in Betracht gezogen wird, ist die wesentliche Ausgabe bei der visuellen Verarbeitungsinformation als Annahme dreidimensionaler visueller Information aus dem gewonnenen zweidimensionalen Bild anzunehmen. Um mit dem vorstehenden Ausgang zu Rande zu kommen, werden die beiden Arten von Annäherungen ausgeführt.
Untersuchungen und Entwicklungen des visuellen Systems lebender Organismen, die in den 90er Jahren mit Nachdruck ausgeführt wurden, kann ein Hauptabschnitt der Untersuchungen unter Verwendung mathematischer Modelle genannt werden, die aus der Idee von Marr abgeleitet sind (D. Marr: "Vision" W.H. Freeman und Co.NY (1982)). Die vorstehenden Untersuchungen werden "Computational Vision" genannt, gefolgt von den Untersuchungen, die mit Ideen statistischer Physik entwickelt worden sind, wie die Regularisationstheorie, das Markovsche Zufallsfeld, der Zeilenprozeß und die Anwendung einer Normierungsgruppe. In der zuvor genannten Diskussion sind jedoch endliche Zahlen von Bilddatenpunkten, die zuvor angegeben worden sind, als zum Gegenstand visueller Information in der Weise gemacht worden, daß die dreidimensionale Struktur abgeschätzt wird aus zweidimensionalen Bildsätzen. Das vorstehende Verfahren entspricht einer Abschätzung der dreidimensionalen Welt durch Betrachtung, beispielsweise einer Fotographie oder eines Bildes. Ein Problem, das die dreidimensionale Struktur aus einer gegebenen Information abschätzt, ist schlechtgelagert, weil die Lösung eine Zwischenlösung ist. Folglich ist man mit dem Problem unter Verwendung von Kenntnissen zu Rande gekommen.
Andererseits ist zur selben Zeit ein Verfahren erdacht worden, bei dem das Betrachtungseingabesystem gesteuert wird, Information hinreichend zum Erkennen aufzubereiten, und dann wird die Umgebung erkannt, das heißt, Animate Vision, offenbart von Ballard (D. H. Ballard: "Behavioural constraints on animate vision", image und vision computing, Ausgabe 7, Nr. 1, Seiten 3–9 (1989)). Das vorstehende methodisch angelegte Verfahren beabsichtigt, die schlechte Eigenschaft zu überwinden, die bei der visuellen Informationseingabe besteht, zunächst durch ein Mittel des Eingebens von Daten, die unter Verwendung eines anderen Betrachtungsparameters gewonnen werden. Als Betrachtungsparameter können die Richtung der optischen Achse eines optischen Systems und das Zoomen verwendet werden. Die wichtigste Tatsache ist das Bestimmen "des zunächst zu suchenden Gegenstands" und "einen zunächst zu betrachtenden Ort", das heißt, ein Verfahren des Steuerns der Betrachtungsparameter.
1. Verfahren, das von Ballard et al. Veröffentlicht wurde (D. H. Ballard und C.M. Brown: "Principles of Animate Vision", GVGIP: IMAGE UNDERSTANDING, Ausgabe 156, Nr. 1, Seiten 3 bis 21 (August 1992).
Das Betrachtungsumgebungserkennungssystem umfaßt ein Bildeingabegerät, das zwei Arten von Bildeingabeverfahren enthält, und aus einer Fovealbetrachtung einer kleinen Zone besteht, die der optischen Achse benachbart ist, mit einer hohen Auflösung, und einer Peripherbetrachtung zum Abtasten einer großen Zone entfernt von der optischen Achse, mit einer geringen Auflösung. Somit kann das Erkennen eines Gegenstands ohne Ausnahme erfolgen, wenn die Fovealbetrachtung verwendet wird. Die Kenntnisdaten werden ausgedrückt durch eine Baumstruktur, wie bei einem IS-A-Baum, oder einem Teilbaum, und eine Wahrscheinlichkeitsstruktur wird in die Beziehung zwischen die Gegenstände eingeführt. Eine Strategie ist entwickelt worden, bei der die Nutzfunktion festgelegt ist zwischen der Informationsmenge, gewonnen nach einer gewissen Operation, die abgeschlossen ist, und verbrauchter Energie zum Ausführen der Operation entsprechend der zuvor genannten Baumstruktur und der Wahrscheinlichkeitsstruktur; und die Nutzfunktion wird zum Bestimmen einer nächsten Operation verwendet.
2. Das von Ballard et al. Offenbarte System hat ein Verfahren angewendet des direkten Suchens eines als nächsten zu suchenden Gegenstands. Wixson et al. hat ein indirektes Suchverfahren als Betrachtungspunktsteuerverfahren vorgeschlagen zum Suchen eines Gegenstands eines Objekts, das der Gegenstand ist (LE. Wixon und DH. Ballard: "Using intermediate objects to improve the efficiency of visual search", Int'l., J. Computer Vision, 12:2/3, Seiten 209 bis 230, (1994). Das indirekte Suchverfahren führt eine Suche gemäß der räumlichen Lagebeziehung zwischen einem Objekt aus, das durch Betrachtung identifiziert wurde, und einem beabsichtigten Objekt. Unter der Annahme, daß das beabsichtigte Objekt eine Kaffeetasse ist und die identifizierten Gegenstände ein Tisch, ein Stuhl und eine Wandtafel sind, wird das Eingabesystem in der Weise gesteuert, daß die Position, bei der der Tisch die signifikanteste räumliche Lagebeziehung mit der Kaffeetasse hat, weiter mit hoher Auflösung betrachtet.
Ein System, das von Brooks et al. offenbart ist (RA. Brooks "New Approaches to Robotics", Science, Ausgabe 25, Seiten 1227 bis 1232, (1991)), enthält wenigstens zwei grundlegende Verarbeitungsprogramme, die die Verbindung zwischen den Sensoreingangssignalen und den Stellgliedausgangssignalen einrichten. Tani et al. Hat ein System vorgeschlagen mit einer solchen Struktur, das Regeln in Zeit die sequentiellen Signalvektoren von Sensoreingangssignalen vorhanden sind, wie durch Lernen aufgenommen, und die Regeln werden verwendet in einem Verhaltensmuster (hier siehe japanische offengelegte Patentanmeldung Nr. 6-274224). Nach dem vorstehenden Verfahren kann ein System, das auf eine unbekannte Umgebung angepaßt werden kann, aufgebaut werden. Darüber hinaus ist ein Mechanismus vorgesehen, in dem eine der Aktionen ausgewählt wird, selbst wenn eine Vielzahl möglicher Aktionen vorhanden ist.
Zusätzlich zu den vorstehenden herkömmlichen und repräsentativen Theorien sind folgende Vorschläge gemacht worden:

R. Rimey und C.M. Brown: "Task-Oriented Vision with Multiple Bayes Nets", in "Active V ision", A. Blake und A. Yuille (Herausgeber) MIT press, 1992,
S. Geman und D. Geman: "Stochastic Relaxation, Gibbs Distributions, und the Bayesian Restoration of Image", IEEE Trans. On Pattern Anal, Machine Intell., Ausgabe 6, Nr. 6, Seiten 721 bis 741 (Nov. 1984),
B. Gidas: "A Renormalization Group Approach to Image Processing Problems", IEEE Trans on Pattern Anal. Machine Intell., Band 11, Nr. 2, Seiten 164180 (Februar 1989),
Kawato und Inui: "Computional Theory of the Visual Cortical Areas", IEICE Trans., Band J73-D-II, Nr. 8, Seiten 1111–1121 (August 1990),
D.V. Lindley: "On a measure of the information provided by an experiment", Ann. Math. Stat., Band 27, Seiten 986–1005 (1956),
K.J. Bradshaw, P.F. McLauchlan, I.D. Reid und D.W. Murray: Saccade und pursuit on an active head/eye platform", Image und Vision Computing, Band 12, Nr. 3, Seiten 155–163 (April 1994), und
J.G. Lee und H. Chung: "Global path planning for mobile robot with grid-type world model", Robotics and Computer-Integrated Manufacturing, Band 11, Nr. 1, Seiten 13–21 (1994).

Da jedoch ein Hauptabschnitt der vorstehenden Computertheorien über Information abgehandelt worden ist, erzielbar aus gegebenen Bildern (Setzen von Bildern), sind die erzielten Ergebnisse nur Schätzwerte. Da die Welt unter Verwendung der Betrachter ausgerichteten Koordinatensysteme beschrieben wird, ist die Behandlung beweglicher Objekte zu komplex.
Da andererseits Animate Vision ein objektorientiertes Koordinatensystem zum Beschreiben der Welt verwendet, kann die Behandlung beweglicher Objekte relativ vereinfacht werden. Die Betrachtungspunktsteuerung, die die wichtigste Steuerung ist, hat jedoch mit gewissen Problemen zu rechnen, das heißt:

1. Verfahren zur Erkennung einer Minimaleinheit eines Objekts, das Kenntnis aufbaut, ist nicht abgehandelt worden. Das heißt, die Diskussion wurde geführt unter der Annahme, daß das Erkennen der Minimaleinheit leicht ist.
2. Die Beschreibung erfolgte so, daß die Kenntnis vom Wissensingenieur beschrieben wurde. Das heißt, die Kenntnis der Umgebung, die durch menschliche Wesen nicht bekannt ist, kann nicht angegeben werden.

Das beispielsweise im japanischen Patent Nr. 6-274224 beschriebene System ist ein solches, bei dem die Kenntnis durch Lernen angenommen wird. Da jedoch Ein/Ausgabedaten und die Strukturen des neuronalen Netzwerks im allgemeine Strukturen sind, kann eine hierarchische Struktur immer herangenommen werden. Selbst wenn das neuronale Netzwerk die Leistung zum Hereinnehmen der hierarchischen Struktur hat, kann darüber hinaus erwartet werden, daß eine exzessiv lange Zeit dafür erforderlich ist.
"An Active Vision System for a Location Task Using an Inhomogeneously Blurred Image" von Yagi et al in International Conference on Neural Networks, 27. bis 29. Juni 1994, New York, Seiten 3693–3696, XP000510501, beschreibt ein Verfahren zum Feststellen der Orte von Gegenständen unter Verwendung eines inhomogen verzerrten Bildes. Ein kameraaufgenommenes Bild wird mit hoher Auflösung nahe der optischen Achse von der Kamera verarbeitet, und mit geringer Auflösung in der Peripherie. Beginnt man mit der Mitte eines Bildes einer CCD-Kamera, die hin zu einem jeden Gegenstand bewegt werden wird, und bildet flache Vertiefungen mit der optischen Achse innerhalb weniger Bewegungen.
"A New Neural Net Approach to Robot 3D Perception and Visuo-Motor Coordination" von Lee in International Joint on Neural Networks, Ausgabe 1, 7. – 11. Juni 1992, New York, Seiten 299 bis 307, XP000340233 beschreibt eine neuronale Netzannäherung an robotersichtabhängig geführte Motorkoordinaten. Visuelle servobildende Fehler werden erzielt durch Projektion des Roboteraufgabenraums auf ein 3D-Wahrnehmungsnetz (das den internen Roboter-3D-Raum darstellt) und eine integrale Änderung vom 3D-Raum der Armkonfiguration im 3D-Wahrnehmungsnetz auf der Grundlage eines feldbasierenden reaktiven Wegplanungspotentials erzeugt.
Nach der vorliegenden Erfindung vorgesehen ist ein Verfahren, wie es im Patentanspruch 1 angegeben ist.
Die Erfindung sieht auch ein Gerät vor, wie es im Patentanspruch 10 angegeben ist.
Die Erfindung sieht weiter ein Computerprogrammprodukt vor, wie es im Patentanspruch 19 angegeben ist.
Optionale Merkmale sind in den Patentansprüchen 2 bis 9, 11 bis 18 und 20 angegeben.
KURZE BESCHREIBUNG DER ZEICHNUNG
1 ist ein Diagramm, das die Blockstruktur eines Betrachtungsinformationsverarbeitungsgerätes nach einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
2 ist ein Diagramm, das die Transformation der Koordinaten durch ein Weitwinkelobjektiv zeigt;
3 ist ein Graph, der die Frequenzkennlinie des Weitwinkelobjektivs zeigt;
4 ist ein Graph, der die von einem Sensor zu erfassende Ortsfrequenz zeigt;
5 ist ein Graph, der ein Ortsmuster auf einem Mehrfachauflösungsraum zeigt;
6 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers nach dem ersten Ausführungsbeispiel zeigt;
7 ist ein Diagramm, das ein Beispiel eines stochastischen Automaten nach dem ersten Ausführungsbeispiel zeigt;
8 ist ein Diagramm, das ein Beispiel einer hierarchischen Darstellung zur Verwendung im Ausführungsbeispiel zeigt;
9 ist ein Diagramm, das ein Beispiel einer Betrachtungsumgebung zur Verwendung im Ausführungsbeispiel zeigt;
10 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes nach dem zweiten Ausführungsbeispiel zeigt;
11 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers zeigt, nach dem zweiten Ausführungsbeispiel;
12 ist ein Diagramm, das ein Beispiel eines neuronalen Netzwerks der Hopfield-Art zeigt;
13 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Überwachungsgerätes zeigt, nach einem dritten Ausführungsbeispiel;
14 ist ein Ablaufdiagramm, das ein Beispiel des Betriebs vom Überwachungsgerät nach dem dritten Ausführungsbeispiel zeigt;
15 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes zeigt, nach dem vierten Ausführungsbeispiel;
16 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers zeigt, nach dem vierten Ausführungsbeispiel;
17 ist ein Diagramm, das ein Beispiel der Struktur einer symmetrisch verbundenen neuronalen Netzwerkgruppe zeigt; und
18 ist ein Diagramm, das ein Beispiel der Struktur eines symmetrisch verbundenen neuronalen Netzwerk zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Unter Bezug auf die Zeichnung sind nachstehend bevorzugte Ausführungsbeispiele der vorliegenden Erfindung beschrieben.
Erstes Ausführungsbeispiel
1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes nach diesem Ausführungsbeispiel zeigt. Die Arbeitsweisen der Komponenten sind nachstehend nacheinander beschrieben.
Linsensystem 1
Ein Linsensystem 1 ist ein solches, das über eine Weitwinkellinse (einschließlich einer Fischaugenlinse) verfügt und eingerichtet ist zur optischen Eingabe eines Bildes. Das Linsensystem 1 kann eine übliche Linse enthalten.
2 zeigt ein Beispiel einer Koordinatentransformation mit der Weitwinkellinse des Linsensystems 1. Unter Bezug auf 2 zeigt Symbol x Radiusvektoren eines Polarkoordinatensystems auf einer Abbildungsoberfläche auf, die sich vor dem Eingabesystem befindet, und t zeigt Radiusvektoren des Polarkoordinatensystems auf, nachdem t von der Weitwinkellinse transformiert worden ist. Im optischen System dieses Ausführungsbeispiels wird der Winkel (Winkel θ vom Polarkoordinatensystem auf einer Ebene senkrecht zur Oberfläche des Zeichnungsblattes) vom Polarkoordinatensystem beibehalten. Die Beschreibung, die unter Bezug auf 2 auszuführen ist und die folgende Beschreibung wird ausgeführt nur in der Richtung des Radiusvektors.
Unter Verwendung eines Einfallswinkels ϕ und der Brennweite ξ kann x und t folgendermaßen ausgedrückt werden: t = 2 ξ tan (ϕ/2) (1) x = ξ tan (ϕ) (2)
Somit kann x durch die folgende Gleichung als Funktion von t ausgedrückt werden: X = t/{1 – (t/2 ξ)2] (3)
Die vorstehende Gleichung ist eine Koordinatentransformation mit der Weitwinkellinse.
Wenn ein Frequenzmuster f (0) in Radialrichtung, die sich über die gesamte Bildebene erstreckt, durch das Linsensystem 1 auf die Ebene eines Matrixsensors 2 projiziert wird, kann eine Ortsfrequenz der Radialrichtung bei der Position der Ebene des Matrixsensor 2 entfernt von der optischen Achse 10 für den Abstand t durch folgende Gleichung (4) ausgedrückt werden: f(t) = f(0) {(1 – (t/2 ξ)2)2/{1 + (t/2 ξ)2} (4)
Das Polarkoordinatensystem (t, θ) wird aktuell so verwendet, daß eine 2D-Abbildung f (t, θ) ausgegeben wird. Wenn tatsächlich ein beliebiges Objekt, das in einem aktuellen 3D-Raum existiert, zum Gegenstand gemacht wird, ist nur die Beziehung zwischen Einfallswinkel ϕ und θ bekannt, und θ muß gewonnen werden. Folglich wird die folgende Koordinatentransformation ausgeführt: t = 2 ξ tan (ϕ/2) (5)
Angemerkt sei, daß einige Weitwinkellinsen die Koordinatentransformationsregeln anders als die vorstehenden Regeln ausführen. Eine derartige Weitwinkellinse kann im Linsensystem 1 folglich anstelle der vorstehenden Weitwinkellinse verwendet werden.
Matrixsensor 2
Der Matrixsensor 2 tastet das 2D-Bild f(t, θ), der Koordinaten ab, die das Linsensystem 1 transformiert hat, durch Sensoren, die in der Form einer zweidimensionalen Gliederung angeordnet sind, um ein diskretes 2D-Bild zu erhalten. Der Index vom oberen linken Sensor im Matrixsensor 2 ist eingerichtet auf (1, 1) und der Index vom Sensor an der m-ten Stelle in Horizontalrichtung und der n-ten Stelle in Vertikalrichtung wird mit (m, n) beschrieben.
Der integrale Kern sei ψ Index m, n (X), und das Ausgangssignal g_m,n vom Sensor (m, n), so gilt:
somit bildet {g_m,n}_m,n ein diskretes 2D-Bild
2D-filter 3
Ein 2D-Filter 3 empfängt ein Ausgangssignal aus dem Matrixsensor 2, das heißt, das diskrete 2D-Bild {g_m,n}_m,n, als Eingangssignal dazu, gefolgt von der Maskierverarbeitung, um eine Mehrfachauflösungserweiterung auszuführen.
Die vorstehende Maske verwendet einen Operator ∇²G:
Auch die folgenden Operatorsätze sind effektiv.

(a) eine Vielzahl des Operators ∇²G mit unterschiedlichen Ortskonstanten: isotrope Bandpassfiltersätze können gebildet werden.
(b) Mehrere Gaboroperatoren mit unterschiedlichen Ortskonstanten und Richtungen: Bandpassfiltersätze abhängig von den Richtungen können gebildet werden.

3 veranschaulicht die Beziehung zwischen dem Frequenzband in Radialrichtung, die von einem System festzustellen ist (wird nachstehend Weitwinkellinseneingabeeinheit genannt), gebildet aus der Kombination des Linsensystems 1, dem Matrixsensor 2 und dem 2D-Filter 3 und der Entfernung von der optischen Achse 10. 3 zeigt einen Pfeil, bei dem der rauminvariante Maskenoperator ∇²G verwendet wird als 2D-Filter 3. Das vorstehende System gleicht in etwa einem Bildfilter, das so aufgebaut ist, daß der integrale Kern abhängig von der Richtung der Hochfrequenzkomponenten ist, die gelöscht werden, da der Abstand von der optischen Achse verlängert ist. Wie sich aus 3 verstehen läßt, ermöglicht die Änderung der Richtung von der optischen Achse, die Gesamtzone des Frequenzraums zu bedecken.
Die vorstehende Betrachtung kann verwirklicht werden mit Ergebnissen einer in 4 gezeigten Simulation. Aus 4 ergibt sich, daß die Mittenfrequenz, die von der Weitwinkellinseneingabeeinheit zu erfassen ist, monoton ansteigt, wenn der Versatz von der optischen Achse größer wird. Alle Komponenten, die niedriger als die höchste feststellbare Frequenz sind, werden darüber hinaus von der Einheit erfaßt.
Merkmalsauslese 4
Ein Merkmalsausleser 4 liest die Maximalpunkte aus dem Bildausgabesignal vom 2D-Filter 3 aus zur Verwendung der Maximalpunkte als Merkmale, und gibt deren Koordinaten aus. Die Koordinaten in den vorstehenden Merkmale werden übersetzt in einer Eingabeparametersteuerung 8, um so zum Bestimmen des Steuerumfangs vom Eingangsparameter verwendet zu werden.
Das 2D-Filter und der Merkmalsausleser 4 können folgendermaßen unter Verwendung des Hauptprinzips aufgebaut sein. Im 2D-Filter 3 wird Gradient (∇) veranlaßt, das Bild {g_m,n}_m,n so zu beeinflussen, daß das Vektorfeld {ω_m,n} erzeugt wird. ωm,n = ∇ gm,n {(gm,n – gm-1,n)/Δx}e1 + {(gm,n – gm,n-1)/Δy}e2 (9) wobei e1 und 32 die Elemente der Basis sind, Δx und Δy sind Gitterabstände in Horizontal- und in Vertikalrichtung. Dann wird die Richtung des Vektors bei jedem Punkt (m, n) gewonnen. Arg (ωm,n) = arctan[{(gm,n – gm,n-1)/Δy}/{(gm,n – gm,n-1)/Δx}] (10)
Wird das Vektorfeld ausgedrückt durch eine Funktion einer komplexen Variablen, dann ist die vorstehende Richtung ein Argument einer komplexen Zahl. Unter Verwendung des Argumentprinzips kann der Nullpunkt und ein Pol festgestellt werden.
Das Argumentprinzip ist nachstehend beschrieben. Folgende Annahmen sollen gültig sein. Die Funktion f(z) ist eine meromorphische in einer einfach angeschlossenen Domäne D; C ist eine einfache geschlossene Kurve in der Domäne D; der Nullpunkt und der Pol von f(z) existiert nicht auf der Kurve C; und f(z) hat Nullpunkte, deren Reihenfolge λ_j bei a_j (j = 1, 2, ..., m) liegt, und Pole, deren Reihenfolge μk bei bk (k = 1, 2, ..., n) ist. Der Winkelanstieg Δc arg f (z) realisiert durch Abrunden der Kurve C vom Startpunkt z₀, kann durch folgende Gleichung angegeben werden, wenn die Anzahl Nullpunkte und diejenige der Pole ausgedrückt wird mit
Δc arg f (z) = 2π (NZ(f) – Np(f)) (11)
Ein Verfahren zum Erfassen des Merkmals vom Vektorfeld (ω_m,n)_m,n unter Verwendung des vorstehenden Prinzips ist nachstehend beschrieben.
In Schritt 1 wird "n" auf 1 gesetzt.
In Schritt 2 wird "m" auf 1 gesetzt.
In Schritt 3 wird ein geeigneter Nachbar relativ zu (m, n) in Betracht gezogen. Beispielsweise werden 8 Nachbarn ausgesucht, das heißt, {(m – 1, n – 1), (m, n – 1), (m + 1, n – 1), (m – 1, n), (m + 1, n), (m – 1, n + 1), (m, n + 1) und (m + 1, n + 1)} (12)
In Schritt 5 resultiert das Argumentprinzip in der Anzahl von Nullpunkten und Polen in der Zone, die vom vorstehenden Nachbarn umgeben ist, folgendermaßen, wobei die Anzahlen unter Berücksichtigung der Reihenfolge angegeben sind: Nz (ω) = Np (ω) = (Δc arg ωm,n)/2π (13)
Δ_c arg ω_m,n wird folgendermaßen berechnet: Δc arg ωm,n = Y (ωm+1,n+1, ωm-1,n) + Y (ωm,n+1, ωm+1,n+1) + Y (ωm-1,n+1, ωm,n+1) + Y (ωm-1,n, ωm-1,n+1) + Y (ωm-1,n-1, ωm-1,n) + Y (ωm,n-1, ωm-1,n-1) + Y (ωm+1,n-1, ωm,n-1) + Y (ωm+i,n, ωm+1,n-1) (14)wobei Y (x, y) = argx – argy, wenn argx – argy ≤ π argy – argx anderenfalls (15)
In Schritt 6 wird m auf m + 1 erhöht.
In Schritt 7 wird bestimmt, ob m außerhalb des Bereichs vom Bild liegt. Liegt m außerhalb des Bereichs, schreitet der Ablauf fort zu Schritt 8. Liegt m nicht außerhalb des Bereichs, werden die Prozesse des Schrittes 2 wiederholt.
In Schritt 8 wird n auf n + 1 erhöht.
In Schritt 9 wird bestimmt, ob n außerhalb des Bildbereichs liegt. Liegt n außerhalb des Bildbereichs, dann erfolgt die Beendigung der Operation. Liegt n nicht außerhalb des Bildbereichs, werden die Prozesse beginnend mit Schritt 3 wiederholt.
Der Merkmalsausleser 4 stellt Punkte fest, die die Anzahl N_z(ω) – N_p(ω) enthalten, die aufgrund des vorstehenden Argumentprinzips gewonnen werden und einen negativen Wert haben. Im Ergebnis werden die Zonen, in denen die Anzahl von Polen größer als die Anzahl von Nullpunkten ist, festgestellt. In einer hinreichend kleinen Domäne werden Punkte erfaßt, bei denen Pole vorhanden sind.
Transformierungscodierer 5
Ein Transformierungscodierer hat die Funktion, die die Bilddaten transformiert, die auf einem Mehrfachauflösungsraum vom 2D-Filter 3 in einen Ortsmusterraum aufgelistet sind und die transformierten Daten gesendet werden.
Anfänglich werden benachbarte Koordinaten ((S_f (= 2^k), b_f) mit der Tiefe d im Mehrfachauflösungsraum N_d(S_f, b_f) folgendermaßen festgelegt: S = 2p; p = {k, k-1, ..., Max (0, k-d)} (16) b = bf ± {(m-1/2)2pΔx, (n-1/2)2pΔy)}; m,n = {1, ..., 2k-p} (17)wobei s_f und b_f der Maßstab sind (kann angesehen werden als Invers- oder Ortsfrequenz) in den Raumkoordinaten des Merkmals, den der Merkmalsausleser 4 jeweils erfaßt, und Δx und Δy sind Entfernungen zwischen den Sensoren des Matrixsensors 2 in den Richtungen x beziehungsweise y.
5 zeigt N₂ (s_f, b_f) 51. Die Position (s_f, b_f) von N₂ (s_f, b_f) 51 unterscheidet sich vom Mehrfachauflösungsraum, der Domäne, die das Ortsmuster überdeckt, das heißt die aktuelle Raumdomäne (mit der Breite von b) und der Maßstabsdomäne (die Breite von s, die der Ortsdomäne entspricht) sind unterschiedlich, wie durch die Bezugszeichen 52 und 53 aufgezeigt. Die mit N₂ (s₅₃, b₅₃) überdeckte Domäne ist nämlich die aktuelle Domäne 55 und eine Maßstabsdomäne 57, während die mit N₂ (s₅₂, b₅₂) überdeckte Domäne eine aktuelle Domäne 54 und eine Maßstabsdomäne 56 ist. Die Nachbarschaft mit der Tiefe "0" drückt insbesondere das Pixel bei der Position des Merkmals aus.
Somit ist N_α (S_f, b_f) gleich einem Vierfachbaum (ein Binärbaum in 5) mit der Wurzel, die die Koordinaten (S_f, b_f) im Mehrfachauflösungsraum sind. Das Lokalmuster P_d(S_f, b_f) von (S_f, b_f) mit der Tiefe d in den Koordinaten des Mehrfachauflösungsraums ist zusammengesetzt, indem die Intensität einem jeden Knoten von N₀ (S_t, b_f) angepaßt ist. Der Ortsmusterraum mit der Tiefe d ist ein funktionaler Raum, der angeordnet ist durch Festlegen des Innenprodukts für einen Satz von Vierfachbäumen mit Tiefe d. Durch Berücksichtigung des Ortsmusters im Mehrfachauflösungsraum kann die Invarianz vom 3D-Objekt in Hinsicht auf eine Bewegung gewisser Art gewonnen werden. Die Tiefe (beispielsweise der bedeckte Bereich des Maßstabs) unterscheidet sich jedoch abhängig vom Objekt.
Das Format von aus dem Transformationscodierer 5 zu sendenden Daten in Hinsicht auf einen diskreten Mehrfachauflösungsraum s = {s₀, s₁, s₂} b {b₀, b₁, ..., b_j, ..., b_J) in einem Beispielsfall, bei dem nur ein Ortsmuster der Tiefe 2 folgendermaßen dargestellt wird: {(b0, (P2 (s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2 (s0, b1), P2(s1, b1), P2 (s2,b1))), (bJ, (P2 (s0, bJ), P2 (s1, bJ), P2 (S2,bJ)))} (18)
Quantisierer 6
6 zeigt die detaillierte Struktur eines Quantisierers 6. Aus dem Transformationscodierer 5 empfängt der Quantisierer 6 Daten beispielsweise in folgender Form: {(b0, (P2 (s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2 (s0, b1), P2(s1, b1), P2 (s2,b1))), (bJ, (P2 (s0, bJ), P2(s1, bJ), P2(S2,bJ)))} (19)
Beispielsweise quantisiert der Quantisierer 6 das Ortsmuster der vorangehenden Daten zum Umsetzen der Daten in ein Codewort S₂ (s_f, b_f) ∊ Z. {(b0, (P2(s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2(s0, b1), P2(s1, b1), P2(s2,b1))), bJ, (S2(s0, bJ), S2(s1, bJ), S2(S2,bJ)))} (20)
Nachstehend kurz erläutert ist die Prozedur, die der Quantisierer 6 ausführt.

(a) j sei 0.
(b) Daten bezüglich Merkmal bj, das heißt, die folgenden Daten werden an den Quantisierer 6 im Anfangsfalle geliefert: {(b0, (b0, P2(s0, b0), P2 (s1, b0), P2(s2, b0)))), (21)
(c) Datenpunkte P₂(S₀, b₀), P₂(S₁, b₀), beziehungsweise P₂(s₂, b₀) werden an die Quantisierer 61, 62 und 63 geliefert und entsprechende Codewörter S₂(S₀, b₀), S₂(S₁,b₀), S₂(S₂, b₀) werden gesendet. Alle Quantisierer 61, 62 und 63 verwenden gleichzeitig ein Codebuch 64.
(d) (b₀, ( S₂(s₀, b₀), S₂(S₁, b₀), S₂(s₂, b₀))) werden gesendet.
(e) Es sei j ← j + 1, und dann erfolgt die Rückkehr zu Schritt (b).

Der Quantisierer 6 besitzt einen Lernmodus zum Erfassen des repräsentativen Vektors und einen Ausführungsmodus zum Codieren des angelieferten Signals, wobei die vorstehenden Modi in der Lage sind, von einer üblichen Vektorquantisierungstechnik realisiert zu werden.
Das Codebuch 64 gibt eine Nummer (Codewort) an das vorstehende Ortsmuster, ausgedrückt als Satz von Komponentenintensitäten bei jeder Knotenposition. Das Codebuch 64 kann beispielsweise gebildet werden durch einen Lernvektorquantisierungsprozeß, der später zum zweiten Ausführungsbeispiel zu beschreiben ist. Als Alternative dazu können Zahlen allen auftretenden Ortsmustern sequentiell zugeordnet werden.
Das heißt, das gegebene Bild wird kopiert als Koordinatensatz der Position vom Merkmal und vom Codewort des Ortsmusters. Die vorstehende Codierung enthält eine bemerkenswerte Redundanz in dem Sinne, daß eine enge Korrelation zwischen den räumlich benachbarten Ortsmustern besteht. Es ist vorzuziehen, daß der repräsentative Vektor vom Quantisierer 6 keine Redundanz enthält. Die Redundanz kann folglich verringert werden unter Verwendung einer gleichzeitigen Auftrittswahrscheinlichkeit zwischen den jeweiligen repräsentativen Vektoren.
Stochastischer Automat 7
Ein Koordinatensatz der Position vom Merkmal und dem Codewort des vom Quantisierer 6 gesendeten Ortsmusters wird an jede Zelle eines stochastischen Automaten 7 gesendet.
7 zeigt ein Beispiel der Struktur des stochastischen Automaten 7. Unter Bezug auf 7 bedeutet Bezugszeichen 71 einen Musterautomaten, der gemäß geometrischer Eigenschaft angelieferter Bilddaten und der Zeitkorrelation gebildet ist. Bezugszeichen 72 bedeutet einen Symbolautomaten, der gemäß einem Ergebnis des vorstehenden Musternetzwerks als Reaktion auf ein anderes Eingangssignal gebildet ist, beispielsweise aus Kenntnisdaten, die von einem menschlichen Wesen unter Verwendung einer Tastatur geliefert werden, und vielleicht auch einem Sensorsignal oder dergleichen. Bezugszeichen 73 bedeutet eine Zelle mit Endzuständen. Eine Wahrscheinlichkeitsstruktur wird festgelegt bezüglich eines Satzes von Statuswerten. Ein Zustandssatz der r-ten Zelle, die zur (q)-ten Schicht gehört, wird geschrieben als Ω_r ^(q), die Wahrscheinlichkeitsverteilung auf dem Satz wird geschrieben mit {p(ω_u)}; ω_u ∊ Ω_r ^(q), ein Satz der Zustände von der v-ten Zelle, die zur (q + 1)-ten Schicht gehört und mit Ω_v ^(q+1) geschrieben wird, die Wahrscheinlichkeitsverteilung bezüglich der Zelle wird mit {p(ω_z)} geschrieben; ω_z ∊ Ω_v ^(q+1). Unter der Annahme, daß sich die Wahrscheinlichkeit auf eine andere bezieht, mit der folgenden Bedingungswahrscheinlichkeit:
wobei p (ω_u) die Wahrscheinlichkeit aufzeigt, daß die r-te Zelle in der q-ten Schicht gleich ω_u ist, und p(ω_z|ω_u) die Wahrscheinlichkeit (Bedingungswahrscheinlichkeit) aufzeigt, daß die v-te Zelle in der (q + 1)-ten Schicht gleich ω_z ist, wenn die v-te Zelle in der q-ten Schicht gleich ω_q ist.
Zellen, die zum Musterautomaten 71 gehören, sind den zugehörigen Partialdomänen zugeordnet, wenn der Mehrfachauflösungsraum unterteilt wird. Der Statuswert der Zellengenauigkeit entspricht folglich dem Codewort in einer Partialdomäne im Mehrfachauflösungsraum. Die Zustandsübergangsmatrix mit den Bedingungswahrscheinlichkeiten als Elemente wird gleichzeitig mit dem Lernen vom Codebuch 64 vom Quantisierer 6 berechnet und erlernt.
Zellen, die zum Symbolautomaten 72 gehören, entsprechen andererseits genau den Objekten oder Ereignissen. Die Bedingungswahrscheinlichkeit zwischen vorstehenden Elementen kann gegeben sein von einem Informatiker oder kann errechnet werden gemäß der zeitlichen und räumlichen Korrelation der angelieferten Bilddaten.
Ein Beispiel einer Dreiniveauhierarchie, die ausgedrückt ist für einen Fall, bei dem die Mehrfachauflösungsdarstellung vom Transformationscodierer 5 nicht erfolgt, ist in 8 gezeigt.
Der Bestätigungsraum im vorstehenden Niveau ist gebildet durch die Ortsanordnung des (3 × 3)-Konfigurationsraums im Niveau, das um eins unter dem vorstehenden Koordinatenraum liegt. Das heißt, Ω⁽⁰⁾wird als Satz von Mustern eingesetzt, die durch Pixelanordnungen mit Realzahlwerten in der Form von (3 × 3) gebildet sind, und Ω⁽¹⁾ ist ein Mustersatz, der durch Anordnen von Codeworten für die Muster gebildet ist, die zu Ω⁽⁰⁾ gehören, in die Form von (3 × 3). Wenn die Bedingungswahrscheinlichkeit zwischen den Schichten als Modell existiert und eine vorherige Wahrscheinlichkeit in Hinsicht auf 18 Muster zu Ω⁽⁰⁾ gehört, angegeben ist, kann die Wahrscheinlichkeitsverteilung der Muster, die zu Ω⁽¹⁾ und Ω⁽²⁾ gehören, nacheinander errechnet werden.
Angemerkt sei, daß der stochastische Automat 7 nach dem ersten Ausführungsbeispiel ein neuronales Netzwerk 207 des Hopfield Typs ist, gemäß einem ersten Ausführungsbeispiel und auch gemeinsam als Wissenserfassungseinheit bezeichnet wird.
Eingangsparametersteuerung 8
Die Eingangsparametersteuerung 8 ist eine Komponente, die solchermaßen gemäß den Koordinaten des Merkmals eingerichtet ist, das vom Merkmalsausleser 4 geliefert wird, und der Musterwahrscheinlichkeitsverteilung, die vom stochastischen Automaten 7 kommt, gesendet zu einer weitwinkellinseneingangseinheit, wobei Eingangsparametersteuersignale beispielsweise die Richtung der optischen Achse des Objektivs und des Zoomens darstellen. Hinsichtlich der Richtung der optischen Achse führt die Eingangsparametersteuerung beispielsweise den folgenden Prozeß aus.
Ein optisches Achsensteuerverfahren hängt ab von der Auswahl eines Merkmals im Satz der Merkmale, erfaßt vom Merkmalsausleser 4. Das Auswahlbewertungskriterium wird durch folgende Gleichung festgelegt: Lbr = L(wbr, T(br, Ωv (q+1)), ρ(br)) (23)
Wobei w_br ein Ausgangswert aus dem normierten 2D-Filter 3 beim Merkmalspunkt b_r ist, der zweite Ausdruck auf der rechten Seite die Menge wechselseitiger Information eines Merkmalspunktes b_r in Hinsicht auf Ω_v ^(q+i) ist und ρ(b_r) die Entfernung von der vorliegenden optischen Achse zu b_r ist. Das einfachste Beispiel von L_br wird angesehen als Linearkombination der jeweiligen Variablen. Lbr = α0wbr + α1T(br, Ωv (q-1)) + α2ρ(br) (24)
Anfänglich wird die Wechselinformationswahrscheinlichkeit T(Ω_r ^(q), Ω_v ^(q+1)) von Ω_r ^(q) in Hinsicht auf Ω_v ^(q+1) durch folgende Gleichung (25) festgelegt. Gleichung (25) wird verwendet zur Berechnung von T(b_r, Ω_v ^(q+1) = T(Ω_r ⁽⁰⁾, Ω_v ^(q+1).
Der Abwandlungsumfang der optischen Achse ist so bestimmt, daß die optische Achse immer mit den Ortskoordinaten übereinstimmt, die die Gleichung (23) oder (24) abgibt, um das Maximum zu bekommen. Jede Zelle des Musterautomaten 71 hat sowohl aktuelle Ortskoordinaten als auch die Maßstabskoordinaten. Indem die optische Achse in Übereinstimmung mit der Betrachtungsposition gebracht wird, bei der die Wechselinformationsmenge maximal ist, ist folglich dasselbe wie die Feststellung einer Zelle mit maximaler wechselseitiger Informationsmenge. Jede Zelle speichert das Codewort und die zugehörige Auftrittswahrscheinlichkeit. Die Zellen sind miteinander durch Zusatzwahrscheinlichkeit verbunden. Eine höchst effektive Zelle, das heißt, die Zelle mit der maximalen wechselseitigen Informationsmenge läßt sich bestimmen unter Verwendung der vorherigen Faktoren zum Bestimmen des Zustands einer Zelle mit einer gewissen Eigenschaft (die Bestimmung ist dieselbe wie beim Verringern der Entropie der Auftrittswahrscheinlichkeit von Codewörtern der speziellen Zelle). Die Zelle wird bestimmt durch Ausführen von Berechnungen unter Verwendung der Gleichungen (23) bis (25).
Angemerkt sei, daß die vorstehenden Gleichungen (23) bis (25) durch Bewertungswerte zur Zoomsteuerung gemacht werden können, wenn die Gleichungen auf den Mehrfachauflösungsraum oder dessen Ortsmuster angewandt werden. Die Berechnungen und Bewertungen der Bewertungswerte sind nicht beschränkt auf die Gleichungen (23) bis (25)
Spezielles Beispiel vom Ausführungsbeispiel
Nachstehend beschrieben ist ein Beispiel, bei dem die Theorie auf ein simples Beispiel angewandt wird. Zum Vereinfachen der Beschreibung wird nun ein Beispiel beschrieben, bei dem eine (3 × 3)-Gliederung Matrixsensor verwendet wird, und die Mehrfachauflösungsdarstellung der Operationen der Weitwinkellinse und die Transformationscodierung wird nicht ausgeführt. Es kann berücksichtigt werden, daß der erste Ausdruck der Gleichung (24) der Änderungsumfang (schwarz(weiß) von Pixeldaten ist.
Es wird die Annahme gemacht, daß die Eingangseinheit in der Lage ist, einen Bereich von (3 × 3) Pixeln gleichzeitig zu erkennen und ein Modell hat, das in der in 8 gezeigten Weise als Kenntnis gebildet ist. Die Beschreibung gilt einem Falle, bei dem nur ein Musterautomat zum Erkennen eines 2D-Musters verwendet wird. Wie sich aus 8 ersehen läßt, wird die räumliche Unterstützung eines Musters vom Niveau (0) aus 3 × 3 Pixeln gebildet, die räumliche Stütze eines Musters vom Niveau (1) wird aus 9 × 9 Pixeln gebildet, und die räumliche Stütze eines Musters vom Niveau (2) wird aus 27 × 27 Pixeln gebildet. Das System ist folglich in der Lage, das Muster vom Niveau (0) durch Ausführen der Betrachtungsoperation zu erkennen. Numerische Zeichen, die im Muster des Niveaus (1) auftreten, und die Muster des Niveaus (2) sind jeweils Codewörter vom Niveau (0) beziehungsweise vom Niveau (1). Es wird angenommen, daß die Auftrittswahrscheinlichkeiten in Hinsicht auf das jeweilige Niveaumuster dieselben sind. Dann wird die Operation zum Erkennen des Musters vom Niveau (1) als Betrachtung von Niveau (1) geschrieben.
Unter der Annahme, daß das in 9 gezeigte Muster als Betrachtungsumgebung angegeben ist, wird nun die Ausgabe zum Erkennen des Musters vom Niveau (2) berücksichtigt. Unter Bezug auf 9 wird der obere linke Punkt als Ursprung (0, 0) geschrieben und zur i-ten rechten Position verschobenes Pixel und ein nach unten zur j-ten Position verschobenes Pixel als (i, j) dargestellt. Da das System nur die beiden Muster vom Niveau (2) kennt, ist es erforderlich, die Muster zu spezifizieren, bei denen die Muster des gegebenen Bildes enthalten sind.
9 zeigt ein eingegebenes Bild, das an das Gerät dieses Ausführungsbeispiels geliefert wird, wobei das Bild in einer Form erzeugt wird, die die Gleichung (13) ausdrückt, nachdem die Verarbeitung im Transformationscodierer 5 und dem Quantisierer 6 erfolgt ist (angemerkt sei, daß die Redundantenabschnitte gelöscht sind).
Eine Zelle ganz oben im Musterautomaten 71, gezeigt in 7, hat einen Puffer zum Speichern der Auftrittswahrscheinlichkeit in Hinsicht auf die 18 Codewörter, die in Ω⁽⁰⁾ gemäß 8 enthalten sind. Jede Zelle in der allerobersten Schicht vom Musterautomaten 71 nimmt eine Musteranpassung zwischen Teilbildern (Teilbilder des gelieferten Bildes, das das 3 × 3-Partialbild in diesem Ausführungsbeispiel ist) in einer Raumdomäne vor, die das Territorium dort ist, und 18 Ω⁽⁰⁾ enthaltenen Ortsmustern gemäß 8, um so das entsprechende Codewort und dessen Auftrittswahrscheinlichkeit zu speichern. Wenn ein Teilbild entsprechend einer gewissen Zelle in der ersten Schicht nicht erzielt wird, ordnet die Zelle in der ersten Schicht dieselbe Auftrittswahrscheinlichkeit "1/18" allen Codewörtern zu. wenn das Teilbild als Lokalmuster "1" oder "2" erfaßt ist, wird "1/2" als Auftrittswahrscheinlichkeit eines jeden Codewortes 1 und Codewortes 2 gespeichert und "0" als Auftrittswahrscheinlichkeit für alle anderen Codewörter.
Jede Zelle des Musterautomaten 71 speichert Codewörter entsprechend den vier Mustern, die in Ω⁽¹⁾ gemäß 8 enthalten sind, sowie deren Auftrittswahrscheinlichkeiten. Angemerkt sei, daß das "Muster" eine räumliche Anordnung des Codewortes von der Zelle der ersten Schicht ist. Das heißt, die lokalen Anordnungen der Codewörter von der Zelle in der ersten Schicht sind dargestellt durch numerische Zeichen "1" bis "4". Die Bestimmung der Anordnung vom Codewort der ersten Schicht im Teilraum, welches das Territorium der Zelle in der zweiten Schicht ist, wird unter "1" bis "4" unter Verwendung von Gleichung (22) berechnet. Angemerkt sei, daß 3 × 3 Muster dem Multiplexverfahren unterzogen sind, wie in Gleichung (22) ausgedrückt. Auch die Zellen in der dritten Schicht werden der Berechnung unterzogen, um die Auftrittswahrscheinlichkeiten in Hinsicht auf die beiden Codewörter unter Verwendung von Gleichung (22) zu erhalten.
Es wird angenommen, daß das Anfangsniveau (0) der Betrachtung bei der Position durchgeführt wurde, bei der die Koordinaten (10, 10) sind; die nachfolgenden Prozesse werden nacheinander beschrieben. Die Koordinaten (10, 10) können angesehen werden als vom Merkmalsausleser erfaßt.
Schritt S1
Die Information, die durch Betrachtung im Niveau (0) von den Koordinaten (10, 10) erzielt wird, zeigt auf, daß das Muster vom Niveau (0) gleich "18" ist. Eine Tatsache, daß der Betrag der vorstehenden Information 0 ist, ist somit leicht verständlich.
Um die Position zu machen, die das System beobachtet, und die relative Position des Musters vom Niveau (2) zur gegenseitigen Entsprechung muß das System das Muster vom Niveau (1) nahe dem gegenwärtigen Betrachtungspunkt spezifizieren.
Um die Betrachtung vom Niveau (1) abzuschließen, muß die Entropie bei Ω⁽¹⁾ minimiert werden. Das heißt, ein Beobachtungspunkt (i, j) , der in der Lage ist, T(Ω_{(i j)} ⁽⁰⁾, Ω_(10,10) ⁽¹⁾ zu minimieren, wird ausgewählt. Als Kandidaten des Beobachtungspunktes werden folgende vier Punkte ausgewählt: {(16, 10), (13, 13), (10, 16) und (16, 16)}. Der erwartete Wert der Informationsmenge, wenn jeder Punkt betrachtet ist, ist folgender: T (Ω(16, 10) (0), Ω(10, 10) (i)) = 0,219, T (Ω(13, 13)(0), Ω(10, 10) (i)) = 0,354, T (Ω(10, 16)(0), Ω(10, 10) (i)) = 0,219, T (Ω(16, 16)(0), Ω(10, 10) (i)) = 0,354 (26)
Wenn ein Betrachtungspunkt, von dem die Entfernung kurz ist, aus den vorstehenden Koordinaten ausgewählt wird, erfolgt die Auswahl (13, 13) als nächster Beobachtungspunkt. Die Bedingungen über die Entfernung sind nicht hierauf beschränkt.
Schritt S2
Die Niveau-(0)-Betrachtung bei den Koordinaten (13, 13) erfolgt. Im Ergebnis wird Niveau-(0)-Muster "14" gewonnen. In diesem Zustand kann das Niveau-(1)-Muster bezüglich der Koordinaten (13, 13) nicht spezifiziert werden. Folglich wird die Niveau-(0)-Beobachtung der Koordinaten (16, 16) ebenso wie in Schritt S1 ausgeführt. Im Ergebnis wird das Niveau-(0)-Muster "10" gewonnen, so daß das Niveau-(1)-Muster bei den Koordinaten (13, 13) mit "1" spezifiziert wird. Die Informationsmenge bei jedem Punkt im Niveau (2) wird berechnet. Die Koordinate des Betrachtungspunktes ist ein Punkt im Niveau (1), die Koordinaten sind (22, 22). Das heißt, ob das Niveau-(1)-Muster bei den Koordinaten (22, 22), gleich "2" oder "3" ist, wird spezifiziert. Die erwarteten Werte der Informationsmenge, wenn die Kandidatenpunkte des Betrachtungspunktes vom Niveau (0) folgende sind: T (Ω(19, 19) (1), Ω(16, 16) (2)) = 0,171, T (Ω(25, 19) (1), Ω(16, 16) (2)) = 0,171, T (Ω(22, 22) (1), Ω(16, 16) (2)) = 0,585, T (Ω(19, 25) (1), Ω(16, 16) (2)) = 0,171, T (Ω(25, 25) (1), Ω(16, 16) (2)) = 0,585.
Als nächster Betrachtungspunkt wird ein Punkt (22, 22) ausgewählt, weil die Entfernung kurz ist.
Schritt S3
Als Ergebnis der Betrachtung bei Niveau (0) zu den Koordinaten (22, 22) kann das Muster "17" vom Niveau (0) erzielt werden. Ob das Niveau-(1)-Muster gleich "3" oder gleich "4" ist, kann somit erfaßt werden. Eine Tatsache, daß das gegebene Eingangssignal im Ergebnis gleich "2" vom Niveau-(2)-Muster ist, läßt sich erkennen.
Obwohl das vorstehende Ausführungsbeispiel nicht als Mehrfachauflösungsraum angesehen wird und dessen Ortsmuster zur Vereinfachung der Beschreibung dient, kann ein gleicher Prozeß mit Komplexität im Prozeß ausgeführt werden, selbst wenn der Mehrfachauflösungsraum und das Ortsmuster berücksichtigt werden. Wenn der Mehrfachauflösungsraum und das Lokalmuster berücksichtigt werden, kann eine Zoomsteuerung und dergleichen erfolgen, sowie die Steuerung der optischen Achse.
Zweites Ausführungsbeispiel
Ein zweites Ausführungsbeispiel hat eine Struktur wie diejenige des stochastischen Automaten 7 nach dem ersten Ausführungsbeispiel, realisiert durch ein Netzwerk der Hopfield-Art. Im Ergebnis wird der in einer Eingangsparametersteuerung 208 durchgeführte Prozeß verändert.
10 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Verarbeitungsgerätes für visuelle Information nach diesem Ausführungsbeispiel zeigt. Ein Linsensystem 201, ein Matrixsensor 202, ein 2D-Filter 203, ein Merkmalsausleser 204 und ein Transformierungscodierer 205 sind jeweils dieselben wie das Linsensystem 1, der Matrixsensor 2, das 2D-Filter 3, der Merkmalsausleser 4 und der Transformationscodierer 5 nach dem ersten Ausführungsbeispiel.
Quantisierer 206
11 zeigt die Struktur eines Quantisierers 206. Der Quantisierer 206 hat einen Lernmodus zum Erfassen repräsentativer Vektoren und einen Ausführungsmodus zum Codieren des angelieferten Signals. Die repräsentativen Vektoren werden im Lernmodus nach einem Verfahren unter Verwendung einer Korrelationsmatrix oder eines Verfahrens unter Verwendung eines Lernvektorquantisierers erfaßt, vorgeschlagen von Kohonen. Nachstehend beschrieben ist ein Verfahren, bei dem der Lernvektorquantisierer, den Kohonen vorgeschlagen hat, zum Bilden eines Quantisierers verwendet, der eine Tiefe m hat.

(a) Gewichtungsvektoren W_n ^m werden aufbereitet von der Zahl entsprechend der Anzahl der repräsentativen Vektoren; und die Gewichtungsvektoren werden von einer kleinen Zufallszahl initialisiert.
(b) Verarbeitungselemente PE_n ^m zum Senden des Skalarproduktes vom Lokalmuster X_m und W_n ^m werden von der Zahl vorbereitet, die dieselbe ist wie beim Gewichtungsvektor W_n ^m. Eine 2D-Entfernung ist zwischen den Verarbeitungselementen eingeführt worden, und ein Nahfeldradius R des Verarbeitungselements wird passend eingesetzt.
(c) PE_n ^m _MAX ZUR Ausgabe eines Maximalwertes in Hinsicht auf ein geliefertes Ortsmuster X^m wird erfaßt, und dann wird der Gewichtungsvektor W_n ^m in Hinsicht auf PE, der Abstand von PE_nm_MAX kürzer als R ist, gemäß folgender Gleichung abgeawndelt: Wn m ← Wn m + ηw (Xm – Wn m MAX)wobei η_w eine beliebige Konstante ist. Ein Gewichtungsvektor wird abgewandelt, der Nahfeldradius R von PE wird allmählich abgesenkt.

Das Ortsmuster mit der hohen Auftrittswahrscheinlichkeit ist, wie der Gewichtungsvektor, im Lernvektorquantisierer gespeichert. Das Codieren vom Ortsmuster wird als Index von PE angegeben, der den Maximalwert abgibt.
Im Ausführmodus des Quantisierers 206 wird der Merkmalsvektor nahe dem Merkmal an den zuvor genannten Lernvektorquantisierer geliefert, um den Index des Verarbeitungselements unter {PE_n ^m}_n, zu erstellen, der einen Maximalwert als Codewort abgibt. Im Ergebnis des vorstehenden Prozesses wird ein passender Satz Codewörter entsprechend aller Merkmale erstellt.
Das solchermaßen angegebene Bild wird codiert als Koordinatensatz der Position vom Merkmal und dem Codewort des Ortsmusters. Die vorstehende Codierung enthält jedoch eine bemerkenswerte Resonanz in dem Sinne, daß eine dichte Korrelation zwischen den Ortsmustern besteht, die räumlich benachbart sind. Es ist vorzuziehen, daß der repräsentative Vektor des Quantisierers 206 nicht die vorstehende Resonanz enthält. Die vorstehende Resonanz kann verringert werden unter Verwendung der gleichzeitigen Auftrittswahrscheinlichkeit zwischen den repräsentativen Vektoren.
Neuronales Netzwerk 207 vom Hopfield-Typ
12 zeigt die Struktur eines neuronalen Netzwerks 207 der Hopfield-Art. Unter Bezug auf 12 ist ein Musternetzwerk 121 ein gemäß geometrischer Eigenschaften und der Zeitkorrelation der gelieferten Bilddaten aufgebaut. Ein Konzeptnetzwerk 122 ist ein solches, das aus dem Ergebnis des Musternetzwerks und eines anderen Eingangssignals gebildet ist, und zwar als Beispiel, aus Kenntnisdaten aus den menschlichen Wesen unter Verwendung beispielsweise einer Tastatur, einem anderen Sensorsignal oder dergleichen.
Ein Neuron 123 ist ein Verarbeitungselement einer multiplen Einausgabe. Eingangsvektor x und Ausgangswert y werden in folgender Beziehung unter Verwendung des Gewichtungsvektors w kombiniert: Y = sgm (WT x) (28)wobei sgm (·) eine Sigmoidalfunktion ist. Der Ausgangswert des Neurons bedeutet die Auftrittswahrscheinlichkeit eines Musters gemäß dem Neuronen oder dem Konzept.
Bezugszeichen 124 bedeutet eine Neuronengruppe in der Form eines Neuronensatzes, die untereinander in Konkurrenz treten. Bezugszeichen 125 stellt ein Gewicht W_j,k dar, das Neuron j und Neuron k verbindet. Die Neuronengruppe ist in der Form hierarchischer Struktur, und eine Vielzahl von Blöcken sind in jeder Hierarchie gebildet. Eine Neuronengruppe in Block r in der Schicht (q) wird geschrieben als Ω^(q):r, und Neuronengruppe in Block v in Schicht (q+1) wird geschrieben als Ω^(q+1):r, und Neuronengruppe in Block v in Schicht (q+1) wird als Ω^(q+1):r geschrieben. Die Neuronengruppe, die zum Musternetzwerk 121 gehört, drückt einen Ortsmusterraum des Mehrfachauflösungsraums bei den Koordinaten aus. Als Anfangszustand des Musternetzwerks 121 werden Daten aus dem Quantisierer 206 eingesetzt.
Die Arbeitsweise vom neuronalen Netzwerk 207 der Hopfield-Art mit der zuvor genannten Struktur wird durch eine Energiefunktion gesteuert, die durch die nachstehende Gleichung festgelegt ist. Das heißt, unter der Annahme, daß der Ausgangswert aus den zu einem jeden Block gehörenden Neuron gleich V_m ∊ Ω^(q):r ist, V_n ∊ Ω^(q+1):r wird folgendermaßen festgelegt:
Da die Gewichtung des Musternetzwerks 121 der Gewichtung für die Verwendung im Lernvektorquantisierer entspricht, kann der Wert der Gewichtung zur Verwendung bei der Lernvektorquantisierung verwendet werden. Jedoch kann die Gewichtung durch das folgende Verfahren erfaßt werden.
Die Gewichtungen für das Musternetzwerk 121 und das Konzeptnetzwerk 122 können folgendermaßen erfaßt werden. Unter Berücksichtigung der Gleichung (29) als Lernpotentialfunktion ist der Abwandlungsumfang der Gewichtung folgender:
Eingangsparametersteuerung 208
Die im ersten Ausführungsbeispiel beschriebene wechselseitige Informationsmenge wird in Übereinstimmung gebracht mit dem neuronalen Netzwerk der Hopfield-Art und folgendermaßen berechnet:

(a) Entropie ε_(q):r ^(q+1):v über den Satz W_m ⁿ von Verbindungen, die den Satz v_m ∊ Ω^(q):r von Neuronen im Block v der Schicht (q + 1) des neuronalen Netzwerk der Hopfield-Art und des Satzes v_n ∊ Ω^(q+1):v von Neuronen in Block v in Schicht (q + 1) wird nach folgender Gleichung berechnet:
Da
ein nach dem Lernverfahren zu berechnender Wert ist, kann er verwendet werden als bekannter Wert im Verfahren des Berechnens vom Eingangsparameter.
(b) Entropie ε_(q):r in Hinsicht auf den Satz v_m ∊ Ω^(q):r der Neutronen im Block r der Schicht (q) des neuronalen Netzwerks der Hopfield-Art wird nach folgender Gleichung berechnet:
(c) Unter Verwendung von ε_(q):r ^(q+1):v und ε_(q):r kann ein Wert erzielt werden, der aus Gleichung (25) kommt, und zwar folgendermaßen: T (ε(q).T+1, p(ω; AT (q+1))) = –ε(q):r (q+1):v + ε(q):r (33)

Drittes Ausführungsbeispiel
Das dritte Ausführungsbeispiel hat eine Struktur, bei der das Verarbeitungsgerät für visuelle Information bei einem Überwachungsgerät verwendet wird.
13 ist ein Blockdiagramm, das die Struktur des Überwachungsgerätes nach diesem Ausführungsbeispiel zeigt. Das Linsensystem 301, der Matrixsensor 302 und das 2D-Filter 303 gleichen dem Linsensystem 1, dem Matrixsensor 2 und dem 2D-Filter 3 nach dem ersten Ausführungsbeispiel.
Merkmalsausleser 304
Der Merkmalsausleser 304 erfaßt den Extremwert der Änderung von den Bilddaten sowie dem Merkmal über die räumliche Anordnung, die das 2D-Filter 303 erfaßt. Das Überwachungsgerät befindet sich an einer Stelle, wie in einem Laden oder einem Büro, in dem ein Bewegungsgegenstand im wesentlichen nicht vorhanden ist. Wenn kein Unfall stattfindet, werden Bilddaten nicht geändert. Eine Stelle, an der sich die Bilddaten geändert haben, wird folglich detailliert zu beobachten sein. Im Ergebnis wird die zeitüberwachte Information zum Aufzeichnen in signifikanter Weise verlängert.
Änderungen im Zeitverlauf sind in Hinsicht auf das Vorstehende ein bedeutsames Charakteristikum. Um einen bewegten Gegenstand aufzunehmen, ist es vorzuziehen, daß die Zeitverzögerung der Rückkopplungssteuerung minimiert wird. Der Merkmalsausleser 304 hat eine andere Funktion zum Berechnen des optischen Achsensteuerumfangs, mit dem die optische Achse veranlaßt wird, die erfaßte Position des Merkmals zu avisieren, um so den vorigen Umfang zur Eingangsparametersteuerung 308 zu senden. Die vorstehende Funktion ermöglicht es, ein Bild eines sich bewegenden Objekts auf dem Sensor als Stehbild zu verarbeiten.
Transformationscodierer 305
Der Transformationscodierer 305 codiert Bilddaten eines aufgenommenen bewegten Gegenstands. Codierte Daten werden durch eine Übertragungsleitung oder eine Busleitung in einer externen Speichereinheit 309 gespeichert.
Quantisierer 306
Codierte Daten eines aufgenommenen Gegenstands werden unmittelbar einem passenden Codewort zugeordnet. Wenn es Gegenstände der vorstehenden Art gibt, die auf dem Bild erscheinen, werden die Gegenstände als ihre Positionen und mit einem entsprechenden Codewort ausgedrückt.
Stochastischer Automat 307
Codierte Daten des aufgenommenen Gegenstands werden unmittelbar einer Statusübergangswahrscheinlichkeitsmatrix des stochastischen Automaten 307 wiedergegeben. Durch Wissen der Intensität einer gewissen beschränkten Frequenzzone kann ein Gegenstand abgeschätzt werden, der in der Frequenzintensitätsfunktion enthalten ist. Die Position eines Gegenstands, der aufgenommen worden ist, kann im Ergebnis ohne hohe Auflösungsdaten erfaßt werden, die durch Veranlassen der optischen Achse gewonnen werden, die mit dem Gegenstand in Übereinstimmung gebracht wird. Beobachtbar ist ein beliebiger Abschnitt der Weitwinkellinse. Das heißt, die Steuerung der optischen Achse ist nicht erforderlich. Selbst wenn eine Vielzahl von Gegenständen in der Überwachungszone auftreten, ist es notwendig, diese zeitsequentiell zu beobachten.
Eingangsparametersteuerung 308
Als Kriterium zur Auswahl eines Merkmals werden ein Ausgangswert aus dem 2D-Filter über das Merkmal, der Änderungsumfang und die lineare Kombination der wechselseitigen Informationsmenge im Verlauf der Zeit verwendet.
Ein Standard, der in dieser Weise gebildet wird, daß ein Gegenstand beim Auftreten beobachtet wird hinsichtlich eines bewegten Gegenstands bei der Mitte der optischen Achse, und der Gegenstand nicht in der Mitte der optischen Achse danach beobachtet wird, ermöglicht ein effektiveres Beobachtungsgerät zu realisieren.
Externe Speichereinheit 309
Die externe Speichereinheit 309 speichert eine Vielzahl von Datenpunkten. Das Überwachungsgerät speichert anfänglich Bilddaten in einem Normalzustand. Dann speichert es nur Abschnitte, die sich im Verlauf der Zeit ändern. Zu speichernde Daten sind codierte Daten des aufgenommenen Gegenstands, Zeit der Aufnahme und Änderung der Position (das heißt, des Ortes) im Verlauf der Zeit. Als Ergebnis der obigen Speicherungsarten kann die zu speichernde Datenmenge in signifikanter Weise verringert werden, und folglich kann das Bild lange Zeit aufgenommen werden.
Betriebsbeispiel vom Überwachungsgerät
Ein aktueller Betrieb des Überwachungsgerätes mit der vorstehenden Struktur ist nachstehend anhand eines in 14 dargestellten Ablaufdiagramms beschrieben.
In Schritt 511 wird ein Anfangsbild einer Stelle, auf die das Überwachungsgerät positioniert ist, in der externen Speichereinheit 309 gespeichert.
In Schritt S12 wird das Merkmal unter Verwendung der Gleichung (24) bewertet. Aus Gleichung (27) geht hervor, daß ein Merkmal des Entwicklungswertes vergrößert ist und kennzeichnet, daß der Änderungsumfang des Pixelwertes eine naher Abschnitt des Merkmals ist, der zur Zeit des Durchgangs groß ist, oder eine große Informationsmenge kann aus dem Merkmal gewonnen werden. Selbst wenn eine Vielzahl von Merkmalen mit denselben Bewertungen über die vorstehenden beiden Punkte vorhanden ist, wird Gleichung (24) zur Auswahl eines Merkmals genommen, der der optischen Achse am nächsten liegt.
Wenn Merkmale einer Art mit einer Bewertung vorhanden ist, die höher ist als ein gewisser Schwellwert α, dann schreitet in Schritt S13 die Arbeit fort zu Schritt 516.
Wenn die zeitweiligen Unterschiede der Signale bei allen Merkmalspunkten in Schritt S14 kleiner sind als ein gewisser Schwellwert β, dann kehrt die Verarbeitung zu Schritt S12 zurück.
In Schritt S15 werden Merkmale der Art, bei denen die zeitliche Differenz größer als ein gewisser Wert β ist, folgender Verarbeitung unterzogen: gemäß dem Codewortvektor (unvollständiges Codewort möglich) gemäß dem vorstehenden Merkmal, eine vollständige Beschreibung über den später zu beschreibenden Gegenstand verwendet zum Identifizieren des Gegenstands, der an der Stelle vorhanden ist. Dann werden gegenwärtig die Koordinaten des Merkmals und die Anzahl gemäß dem Gegenstand zu einem Satz gebildet, und dann wird der Satz in der externen Speichereinheit 309 gespeichert. Danach kehrt die Operation zu Schritt S12 zurück.
In Schritt S16 wird die optische Achse veranlaßt, mit dem ausgewählten Merkmal übereinstimmen.
In Schritt S17 wird die vollständige Beschreibung (der Codewortsatz) vom nahe dem Merkmalspunkt befindlichen Gegenstand hereingenommen, und die geeignete Zahl wird dem Gegenstand zugeordnet. Die dem Gegenstand zugeordnete Zahl, der Codewortsatz, die Zeit und die Koordinaten vom Merkmalspunkt werden in einen Satz gebildet, der dann in der externen Speichereinheit 309 gespeichert wird. Danach kehrt der Ablauf zurück zu Schritt 512.
Das Fortschreiten des Ablaufs zu Schritt S15 entspricht einem Fall, bei dem gemessene Daten eines Abschnitts nahe dem Merkmalpunkt abgeschätzt werden können als Daten, die zuvor beobachtet und in Einzelheiten mit hinreichender Zuverlässigkeit gespeichert wurden, gemäß den Meßdaten des Abschnitts nahe vom Merkmalspunkt. Das Überwachungsgerät nach diesem Ausführungsbeispiel ist eingerichtet, die Verarbeitungen so auszuführen, daß eine detaillierte Beobachtung nur dann erfolgt, wenn eine Person in den Speicher eingibt (Schritte S16 und S17); und dann speichert das Überwachungsgerät nur die Positionsinformation der Person (S15).
Unter Verwendung eines Überwachungsgerätes der vorstehenden Art ermöglicht eine Speichereinheit mit einer beträchtlich geringeren Kapazität als eine solche, die erforderlich ist zum Speichern zeitvariabler Bilder, das Überwachen, das für lange Zeit ausgeführt werden kann. In einem Fall, bei dem ein Bild 260 kBytes (512 Pixel × 512 Pixel, eines von jedem hat 1 Byte) hat, erfordert das Speichern von 108.000 sequentieller Bilder 28 GBytes (1 Stunde wegen 30 Bildern pro Sekunde). Wenn gemäß diesem Ausführungsbeispiel 100 Bewegungsgegenstände (Kunden im Falle eines Geschäftsinneren) immer vorhanden sind und eine Kapazität eines Bildschirms (260 kBytes) erforderlich ist zur vollständigen Beschreibung eines jeden Gegenstands, ist eine Kapazität erforderlich zum Speichern des Bildes für eine Stunde, die auf 28 MBytes reduziert werden kann, welches die Summe von 0,26 MBytes ist, die zum Speichern eines Anfangsbildes erforderlich ist, 26 MBytes zum Beschreiben der Gegenstände, 1.729 MBytes zum Speichern der Orte (im Falle, bei dem die Position eines Merkmals durch 2D Koordinaten mit doppelter Genauigkeit beschrieben wird). Aktuell ist eine Situation gegeben, in der 100 Personen immer im Laden sind, die nicht leicht zu berücksichtigen ist. Die erforderliche Kapazität zum Beschreiben der Objekte ist darüber hinaus kleiner als die erforderliche Kapazität zum Speichern des gesamten Bildes. Wenn die im Laden vorhandenen Objekte um 10 abgesenkt werden, ist die zum Speichern der Bilder für eine Stunde signifikant auf 3 MBytes reduzierbar.
Viertes Ausführungsbeispiel
Im vierten Ausführungsbeispiel ist der Quantisierer 6 nach dem ersten Ausführungsbeispiel realisiert durch einen Ortsvektorlernquantisierer und der stochastische Automat 7 durch eine neurale Netzwerkgruppe der symmetrisch verbundenen Art. Darüber hinaus vorgesehen ist ein Signaleingabeabschnitt zum Eingeben eines Signals von außen und ein Signalausgabeabschnitt zum Senden eines Signals nach außen. Im Ergebnis wird ein Vorgang, der durch die Parametersteuerung auszuführen ist, verändert.
15 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Verarbeitungsgerätes der visuellen Information nach diesem Ausführungsbeispiel zeigt. Eine Bildeingabeeinheit 401 ist ausgestattet mit einem Linsensystem und mit einem Matrixsensor, ähnlich wie beim Linsensystem 1 und dem Matrixsensor 2 im ersten Ausführungsbeispiel. Ein 2D-Filter 403, ein Merkmalsausleser 404 und ein Transformiercodierer 405 gleichen dem 2D-Filter 3, dem Merkmalsausleser 4 und dem Transformiercodierer 5 im ersten Ausführungsbeispiel.
Quantisierer 406
16 zeigt die Struktur eines Lernortsvektorquantisierers (LLVQ), der als Quantisierer 406 dient. Der LLVQ hat einen Lernmodus zum Erfassen eines repräsentativen Vektors und eines Ausführmodus zum Codieren des Eingangssignals. Der repräsentative Vektor wird erfaßt im Lernmodus durch ein Verfahren unter Verwendung einer Korrelationsmatrix oder eines Verfahrens unter Verwendung eines Lernvektorquantisierers, der von Kohonen vorgeschlagen wurde. Nachstehend beschrieben ist ein Lernvektorquantisierer, den Kohonen vorgeschlagen hat, um einen Quantisierer mit einer Tiefe m zu bilden.

(a) Gewichtungsspeicher 162 sind zuvor aufbereitet durch eine vorbestimmte Anzahl zum Speichern eines repräsentativen Vektors W_n, der zu einer gewissen Kategorie n gehört. 16 zeigt einen Fall, bei dem die Anzahl repräsentativer Vektoren 2 beträgt.
(b) Ein Gewichtungsaktualisierer 163 ist vorgesehen für jeden Gewichtungsspeicher 162 und eingerichtet zum Aktualisieren des Wertes der Gewichtung, die im Gewichtungsspeicher 162 gemäß nachstehender Gleichung (34) gespeichert ist, nur wenn das vom Binärumsetzer 164 gesendete Signal "1" ist: Wn m ← Wn m + ηw (Wn m – Xm) (34)
(c) Ein Innenproduktrechner 161 berechnet das Skalarprodukt vom Eingangssignal X mit W_n zum Senden des Ergebnisses der Rechnung an einen Binärumsetzer 164.
(d) Der Binärumsetzer 164 empfängt Ausgangssignale aus der Vielzahl von Innenproduktrechnern 161 zum Umsetzen des Ausgangswertes, der den Maximalwert in "1" darstellt, und andere Ausgangswerte in "0". Signale (Binärsignale), die die umgesetzten Werte darstellen, werden jeweils an den Gewichtungsaktualisator 163 gesandt. Ein Binärsignalsatz wird an eine Neuronalnetzwerkgruppe der symmetrisch verbundenen Gruppe 406 der symmetrisch verbunden Art gesandt.

Das solchermaßen gelieferte Bild wird als Koordinatensatz der Position des Merkmals und des Codewortes vom Lokalmuster codiert. Die vorstehende Codierung enthält jedoch eine beträchtliche Redundanz in dem Sinne, daß eine starke Korrelation zwischen den Ortsmustern besteht, die räumlich benachbart sind. Vorzuziehen ist es, daß der Repräsentativvektor des Quantisierers 405 keine Redundanz enthält. Die vorstehende Redundanz läßt sich verringern unter Verwendung einer gleichzeitigen Auftrittswahrscheinlichkeit zwischen jeweiligen Repräsentativvektoren.
Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art
17 zeigt die Struktur einer Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art. Die Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art enthält eine Vielzahl neuronaler Netzwerke der symmetrisch verbundenen Art. Jedes Neuronalnetzwerk der symmetrisch verbundenen Art empfängt ein Signal aus einem anderen Neuronalnetzwerk der symmetrisch verbundenen Art, aus dem Transformiercodierer 405 oder einem Signaleingabeabschnitt 408 zum Senden eines Ergebnisses des Prozesses vom Eingangssignal an ein anderes Neuronalnetzwerk der symmetrisch verbundenen Art, eine Eingabeparametersteuerung 407 oder eine Signalausgabeeinheit 409.
18 zeigt die Struktur eines Neuronalnetzwerks der symmetrisch verbundenen Art. Unter Bezug auf 18 hat der Neuronalnetzwerkzustandsaktualisator 171 der symmetrisch verbundenen Art eine Struktur, die über Mehrfacheingänge verfügt und einen Ausgang, und sie verwendet eine nichtlineare Ein-/Ausgabefunktion, die realisiert wird durch symmetrisch verbundene Neuronen, die jeweils eine Sigmoid-Funktion untereinander durch Gewichtungen haben. Dann bilden Neuronen wenigstens zwei Blöcke, von denen einer ein Ausgabeblock ist, alle anderen Blöcke sind Eingangsblöcke. Der Eingangswertesatz aus dem Neuron im Ausgabeblock ist in ein Ausgangssignal (Vektor) gebildet. Neuronen, die zum Eingangsblock gehören, empfangen Signale aus einem anderen neuronalen Netzwerk der symmetrisch verbundenen Art, dem Quantisierer 405 oder der Signaleingabeeinheit 408.
Die Bewegung des Neuronalnetzwerks 207 mit der vorstehenden Struktur wird gesteuert durch eine Energiefunktion, die durch folgende Gleichung festgelegt ist. Das heißt, wenn der Ausgangswert des Neurons, der zum Ausgabeblock gehört, V_n ist, wird der Ausgangswert eines Neurons, das zu einem beliebigen Eingabeblock gehört, V_m, und der Eingabewert ist Im, und die Gewichtung zwischen den Neuronen ist W_m,n, die Energiefunktion H läßt sich festlegen mit der folgenden Gleichung (35):
Der Gewichtungsaktualisator 172 aktualisiert das Gewicht des Neurons gemäß der Gewichtungsaktualisierungsregel, die beispielsweise ausgedrückt wird durch folgende Gleichung (30):
Der Gewichtungsspeicher 173 speichert das vom Gewichtungsaktualisierer 172 aktualisierte Gewicht.
Ein erster Informationsmengenrechner 174 berechnet eine erste Informationsmenge ε₁ gemäß dem Ausgangswert v_n des Neurons, das zu dem Ausgabeblock gehört, folgendermaßen:
Ein zweiter Informationsmengenrechner 175 berechnet die zweite Informationsmenge ε₂ folgendermaßen gemäß dem Ausgangswert V_n des Neurons, das zum Ausgabeblock gehört, dem Ausgangswert V_m des Neurons, das zum Eingangsblock gehört, und gemäß der Gewichtung W_m,n zwischen den vorstehenden Neuronen:
Da
ein Wert ist, der sich im Lernmodus berechnet läßt, kann er als bekannter Wert im Vorgang des Berechnens vom Eingangsparameter behandelt werden.
Ein dritter Informationsmengenrechner 176 berechnet eine dritte Informationsmenge T folgendermaßen gemäß der ersten Informationsmenge ε₁ und der zweiten Informationsmenge ε₂: T = –ε2 + ε1 (39)
Eingangsparametersteuerung 407
die Eingangsparametersteuerung 407 sendet an die Bildeingabeeinheit 401 ein Eingangsparametersteuersignal zum Steuern der Richtung der optischen Achse von der Linse, dem Zoomen und dergleichen gemäß den Koordinaten des Merkmals, geliefert vom Merkmalsausleser 403 und der neuronalen Netzwerkgruppe 406 der symmetrisch verbundenen Art.
Das Steuern der Richtung der optischen Achse hängt beispielsweise ab von der Auswahl des Merkmals in einem Merkmalssatz, den der Merkmalsausleser 403 erfaßt. Das Auswahlkriterium wird beispielsweise durch folgende Gleichung (40) festgelegt: Lj = L (ωj, Tj, ρj) (40)
Wobei ω_j ein Ausgangswert aus einem normierten 2D-Filter nahe dem j-ten Merkmal ist, T_j eine dritte Informationsmenge nahe dem j-ten Merkmal und ρ_j die Entfernung von der vorliegenden optischen Achse zum j-ten Merkmal ist.
Die Signaleingabeeinheit 408 empfängt ein Eingangssignal aus einem anderen Gerät, beispielsweise Kenntnisdaten, die von einem menschlichen Wesen geliefert werden, beispielsweise unter Verwendung einer Tastatur oder eines Signals aus einem anderen Sensor. Die Signalausgabeeinheit 409 sendet ein Ausgangssignal aus der neuronalen Netzwerkgruppe 406 der symmetrisch verbundenen Art an eine andere Einheit oder ein anderes Gerät, mit Ausnahme der Eingangsparametersteuerung 407 des Verarbeitungsgerätes für visuelle Information.
Durch Kombinieren des Verarbeitungsgerätes für visuelle Information gemäß diesem Ausführungsbeispiel mit einem anderen Gerät kann eine Vielfalt von Verfahren ausgeführt werden.
Beispielsweise während der Beobachtung des Gesichts eines menschlichen Wesens, kombiniert mit einem drahtlosen Signalgerät oder einem drahtgebundenen Signalgerät, ist die Eingabe vom Namen des menschlichen Wesens mit einem verdrahteten Signal oder einem drahtlosen Signal möglich, die Bilddaten des Gesichts und den Namen, der auf diese Weise zu speichern ist, daß beide miteinander zusammenhängen. Der vorstehende Prozeß ist nicht auf das Gesicht eines menschlichen Wesens in dem Sinne beschränkt, daß ein Bild mit einem Kennzeichen versehen wird. Wenn das Verarbeitungsgerät für visuelle Information kombiniert ist mit einem Sprachsignaleingabegerät zur Beigabe zum Bild mit dem Sprachsignal, kann die Genauigkeit der Erkennung des Bildes verbessert werden.
Das Sprachsignaleingabegerät und das Sprachsignalverarbeitungsgerät sind nicht auf die Stimme menschlicher Wesen beschränkt. Beispielsweise können Ultraschallwellen verwendet werden. Im vorstehenden Falle ermöglicht ein Ultraschallsensor Informationen über die Entfernung des Umgebungsgegenstands und kann gebildet werden unter Verwendung visueller Information und Entfernungsinformation.
Das Sprachsignaleingabegerät und das Sprachsignalverarbeitungsgerät läßt sich verwenden zum Ausführen einer Kommunikation unter einer Vielzahl autonom laufender Roboter oder einer Vielzahl von Überwachungsgeräten. Ein Fall wird beispielsweise herangezogen, in dem das Innere eines Gebäudes von einem Überwachungsgerät überwacht werden kann. Es wird die Annahme gemacht, daß ein Überwachungsgerät j einen bewegten Gegenstand erfaßt hat und den Gegenstand in Einzelheiten überwacht. Wenn sich der sich bewegende Gegenstand nach außen aus der Zone bewegt, die das Überwachungsgerät j überwachen kann, und in eine Zone eintritt, die von einem Überwachungsgerät k überwacht werden kann, kann die Zone, die das Überwachungsgerät k überwachen kann, Informationen von Überwachungsgerät j an Überwachungsgerät k senden, das detaillierte Daten des bewegten Gegenstands aus der Zone eingeführt hat, die vom Überwachungsgerät j überwacht werden kann, in die Zone, die das Überwachungsgerät k überwachen kann, wodurch das Überwachungsgerät j Ergebnisse im Überwachungsgerät k erfaßt, die aus der detaillierten Beobachtung des bewegten Gegenstands fortgelassen werden. Die vorstehende Struktur ist effektiv zum Reduzieren der zu speichernden Datenmenge und der Arbeit, die das Überwachungsgerät ausführen muß.
Wenn das Verarbeitungsgerät für visuelle Information kombiniert wird mit einem Fahrzeugroboter zum Transportieren von Teilen oder dergleichen in einer Fabrikationsstätte oder dergleichen, kann der Fahrzeugroboter befähigt sein, in flexibler Weise die Umgebung zu erfassen. Auch die Kombination mit einem Sprachsignalausgabegerät läßt sich realisieren.
Gemäß den Ausführungsbeispielen kann das Verfahren und das Gerät zum Verarbeiten visueller Information bereitgestellt werden, das in der Lage ist, schnell die optimale visuelle Information zu erfassen. Eine Vielfalt von Geräten, bei denen das Verfahren und das Gerät zur Verarbeitung visueller Information eingerichtet ist, kann darüber hinaus bereitgestellt werden.
Insbesondere ist zu beachten:

1. Wenn die Bildeingabe leicht auf Grund irgendwelcher Grüne nicht leicht fortgesetzt werden kann, kann ein Ergebnis gewonnen werden, das die höchste Auftrittswahrscheinlichkeit zeigt. Da die vorstehenden Operationen parallel verarbeitet werden, kann die zum Abschluß der Operationen erforderliche Zeit signifikant abgekürzt werden. Da die vorstehende Struktur durch das neurale Netzwerk der Hopfield-Art aufgebaut ist, kann die Statusübergangsregel vereinfacht werden, und die erforderliche Zeit zur Prozeßvollendung kann weiter verkürzt werden.
2. Vorzuziehen ist es, daß der Merkmalssatz eines Bildes ein Satz endlicher Punkte ist. Da jedoch die Kante weitestgehend als Merkmalsgleichheit mit der herkömmlichen Technik fortgesetzt verwendet wird, ist eine gewisse Nachverarbeitung erforderlich, beispielsweise muß die Stärke der Kante binär umgesetzt werden, um eine endliche Zahl von Punktsätzen zu erhalten. Ein Merkmalspunkt läßt sich erzielen als ein isolierter Punkt. Darüber hinaus sind der Transformiercodierer, der Quantisierer und die Kenntniserfassungseinheit in der Lage, die Sensoreingabe und die Kenntnisdaten in vereinheitlichter Form zu behandeln. Im Ergebnis kann die Struktur der Ausführungsbeispiele angewandt werden zum Erkennen der Umgebung, die aus komplizierten Sehmustern aufgebaut ist.
3. Unter Verwendung eines Laplace-Gauß-Filters als 2D-Filter kann die visuelle Information der Umgebung ungefähr in einen Mehrfachauflösungsunterraum transformiert werden. Durch geeignetes Steuern der Richtung der optischen Achse kann die Beschreibung eines Mehrfachauflösungsunterraums eines Bildes oder einer Umgebung ungefähr gewonnen werden. Wenn ein einfacher Durchschnittsbildungsprozeß als 2D-Filter angewandt wird, kann die Beschreibung bei der Mehrfachauflösungsannäherung in Hinsicht auf eine Teildomäne des Bildes oder eine Umgebung erzielt werden. Wenn der Kern der Verwendung im Mehrfachauflösungsraum als derjenige des 2D-Filters verwendet wird, kann ein entsprechender Mehrfachauflösungsraum ungefähr erzielt werden. Die vorstehende Struktur ist ein effektives Erfassungsverfahren in einem Fall, bei dem die visuelle Information der Umgebung eine Teildomäne eines Mehrfachauflösungsraums abdeckt.
4. Ein neuronales Netzwerk der Vorwärtszuführungsart ermöglicht die Hochgeschwindigkeitsvorwärtssteuerung, wobei die Geschwindigkeit, die höher als die des neuronalen Netzwerks der Hopfield-Art ist, zur Ausführung kommt.
5. Ein Mehrfachauflösungsraum wird verwendet als Merkmalsmengenraum, und die Aufmerksamkeit wird dem Ortsmuster im vorstehenden Raum gewidmet, so daß eine Invariante in Hinsicht auf eine spezifische Bewegung eines Gegenstands in der Umgebung vorhanden ist und erzielt werden kann. Die Bewegung entlang der optischen Achse ist beispielsweise nur die Verschiebung der Merkmalsmenge eines Gegenstands entlang der Maßstabsachse.
6. Durch Kombinieren eines Sprachsignaleingabegerätes mit einem Sprachsignalverarbeitungsgerät kann ein Befehl von einem menschlichen Wesen mittels Sprache gesendet werden, oder ein Hindernis kann mittels Klang identifiziert werden. Durch Kombinieren eines drahtlosen Signalübertragungsgeräts mit einem drahtgebundenen Signalverarbeitungsgerät oder einem drahtgebundenen Signalübertragungsgerät und einem drahtgebundenen Signalverarbeitungsgerät können Befehle gesendet/empfangen werden zu und von an einen anderen Computer und von diesem, oder es können Informationen gesendet/empfangen werden zu und von einem anderen Verarbeitungsgerät für visuelle Information. Die Kenntniserfassungseinheit ist in de Lage, den Eingangsparameter als Reaktion auf das Sprachsignal zu steuern, das drahtlose Signal und das drahtgebundene Signal. Ein Gegenstand, der als Reaktion auf ein solches einzelnes Signal bisher nicht erkannt werden konnte, läßt sich nun erkennen. Kenntnisdaten werden aus einem anderen Verarbeitungsgerät für visuelle Information aufgenommen, so daß die zum Ausführen des Prozesses im Lernmodus verkürzt wird.
7. Durch Kombinieren eines Arbeitswerkzeugs mit einem Gerät zum Steuern des Arbeitswerkzeugs kann eine Operation ausgeführt werden, die angepaßt ist an den Umgebungszustand. Wenn das Ausführen der Operation beträchtlich von der Umgebung abhängt, kann eine Gruppenarbeit mit einem automatischen Betriebsroboter in effektiver Weise ausgeführt werden.
8. Durch Kombinieren eines Sprachsignalausgabegeräts kann der Zustand vom Nutzer durch Information zu umgebenden Personen gewonnen werden. Ein autonomer Roboter, eingereichtet für eine Gruppenarbeit mit menschlichen Wesen läßt sich somit aufbauen.

Die vorstehenden Ausführungsbeispiele lassen sich anwenden bei einem System mit einer Vielzahl von Geräten, oder sie können angewandt werden bei einem speziellen Gerät in einem System. Ausführungsbeispiele können angewandt werden in einem Fall, bei dem ein Computer ein Programm ausführt, um eine Aufgabe zu lösen. Das Programm kann von einem externen Speichermedium geliefert werden.
Obwohl die Ausführungsbeispiele in ihren bevorzugten Formen mit einem gewissen Grad an Eigenartigkeit beschrieben worden sind, können viele offensichtlich weitestgehend unterschiedliche Ausführungsbeispiele der Erfindung ohne Abweichen vom Umfang dieser aufgebaut werden.

Claims

Verfahren zum Steuern der Sehrichtung eines Betrachtungsgerätes zum Betrachten unterschiedlicher Bereiche einer Szene und zum Verarbeiten von Bilddaten aus dem Betrachtungsgerät zum Ausführen einer Mustererkennung unter Bezug auf einen ersten Satz (Ω(0)) erster Muster und einen zweiten Satz (Ω(1)) zweiter Muster, wobei jedes erste Muster ein mögliches Muster in einem Szenenbereich und jedes zweite Muster eine räumliche Anordnung eines jeweiligen Musters einer Vielzahl erster Muster darstellt, mit dem Verfahrensschritten: (a) Feststellen eines Merkmalspunktes in Daten, die einen aktuellen Szenenbereich darstellen, gesehen vom Betrachtungsgerät, und Auslesen eines Musters aus den Daten abhängig von der Merkmalspunktposition; (b) Bestimmen für jedes Muster einer jeweiligen Auftrittswahrscheinlichkeit, die eine Wahrscheinlichkeit darstellt, daß das ausgelesene Muster dasjenige des ersten Musters ist; (c) Auswählen eines neuen Szenenbereichs, der aus einer Vielzahl von Szenenbereichen zu sehen ist, die mit dem aktuellen Szenenbereich eine räumliche Anordnung von Bereichen entsprechend der räumlichen Anordnung erster Muster in jedem zweiten Muster festlegen, wobei die Auswahl des neuen Szenenbereichs, der zu sehen ist, die Verfahrensschritte umfaßt (i) Verwenden der vorbestimmten Auftrittsgeschwindigkeiten zum Berechnen eines jeden der Vielzahl von Szenenbereichen, die sich vom aktuellen Szenenbereich unterscheiden, eines jeweiligen Informationswertes (T), der die Informationsmenge festlegt, die beim Betrachten des Szenenbereich als verfügbar zu erwarten ist, um eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz zu bestimmen, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist; und (ii) Auswählen des neuen zu betrachtenden Szenenbereichs in Abhängigkeit von den berechneten Informationswerten (T) und dem Abstand (ρ) eines jeden der Vielzahl von Szenenbereichen aus dem aktuellen Szenenbereich; (d) Erzeugen eines Steuersignals zum Bewegen des Betrachtungsgerätes, um den ausgewählten neuen Szenenbereich zu sehen; (e) Erfassen eines Merkmalspunktes in Daten, die den neuen vom Betrachtungsgerät gesehenen Szenenbereich darstellen, und Auslesen eines Musters aus den Daten in Abhängigkeit von der Merkmalspunktposition; (f) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes Musters, die die Wahrscheinlichkeit festlegt, daß das aus dem neuen Szenenbereich ausgelesene Muster das erste Muster ist; und (g) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
Verfahren nach Anspruch 1, bei dem das Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz folgende Verfahrensschritte umfaßt: Bestimmen, ob ein zweites Muster als ein zweites in der Szene vorhandenes Muster identifizierbar ist, und: (i) im Falle, daß die Identifikation erfolgen kann, Auswählen des identifizierten zweiten Musters; (ii) im Falle, daß die Identifikation nicht erfolgen kann, Wiederholen der Schritte (c)(ii), (d), (e), (f) und des gegenwärtigen Schritts, bis ein Muster im zweiten Satz als ein in der Szene vorhandenes zweites Muster identifiziert werden kann, oder bis eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster bestimmt ist, das eine Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
Verfahren nach Anspruch 1 oder nach Anspruch 2, das weiterhin den Verfahrensschritt des Ausführens der Verarbeitung unter Bezug auf einen dritten Satz (Ω(2)) von dritten Mustern umfaßt, wobei jedes dritte Muster ein mögliches Muster in der Szene und jedes dritte Muster eine räumliche Anordnung eines jeweiligen Musters aus einer Vielzahl zweiter Muster darstellt, um eine jeweilige Auftrittswahrscheinlichkeit für jedes dritte Muster im dritten Satz zu bestimmen, der eine Wahrscheinlichkeit darstellt, daß das dritte Muster in der Szene vorhanden ist.
Verfahren nach einem der vorstehenden Ansprüche, bei dem das Bild aus dem Betrachtungsgerät darstellende Daten solche enthalten, die das Bild in einem Vielfachauflösungsraum darstellen, und bei dem der Verfahrensschritt des Feststellens eines Merkmalspunktes das Feststellen eines Merkmalspunktes im Vielfachauflösungsraum umfaßt.
Verfahren nach Anspruch 4, bei dem der Verfahrensschritt des Auslesens eines Musters in Abhängigkeit von der Position eines festgestellten Merkmalspunktes das Auslesen eines Musters in einer vorbestimmten Tiefe des Mehrfachauflösungsraumes umfaßt.
Verfahren nach einem der vorstehenden Ansprüche, bei dem der Verfahrensschritt des Feststellens eines Merkmalspunktes Verarbeiten der Daten zum Erzeugen eines als Funktion einer komplexen Variablen ausgedrückten Vektorfeldes und Ausführen der Verarbeitung unter Verwendung des Grundprinzips umfaßt, um einen Merkmalspunkt festzustellen.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die Muster in jedem Satz in einem stochastischen Automaten festgelegt sind, der eine Vielzahl von Zellen hat, und wobei wenigstens ein Teil der Verarbeitung unter Verwendung des stochastischen Automaten erfolgt.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem ein neutralen Netz des Hopfield-Typs die Muster eines jeden Satzes festlegt und bei dem wenigstens einen Teil der Verarbeitung unter Verwendung des neuronale Netzes vom Hopfield-Typ erfolgt.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem eine Vielzahl von neuronalen Netzen der symmetrisch verbundenen Art die Muster in jedem Satz festlegt und bei dem wenigstens ein Teil der Verarbeitung unter Verwendung der Vielzahl neuronaler Netze erfolgt .
Gerät zum Steuern der Sehrichtung eines Betrachtungsgerätes zum Betrachten unterschiedlicher Bereiche einer Szene und zum Verarbeiten von Bilddaten aus dem Betrachtungsgerät zum Ausführen einer Mustererkennung unter Bezug auf einen ersten Satz (Ω(0)) erster Muster und einen zweiten Satz (Ω(1)) zweiter Muster, wobei jedes erste Muster ein mögliches Muster in einem Szenenbereich und jedes zweite Muster eine räumliche Anordnung eines jeweiligen Musters einer Vielzahl erster Muster darstellt, mit einem Verarbeitungsmittel, das betriebsbereit ist zum: (a) Feststellen eines Merkmalspunktes in Daten, die einen aktuellen Szenenbereich darstellen, gesehen vom Betrachtungsgerät, und Auslesen eines Musters aus den Daten abhängig von der Merkmalspunktposition; (b) Bestimmen für jedes Muster einer jeweiligen Auftrittswahrscheinlichkeit, die eine Wahrscheinlichkeit darstellt, daß das ausgelesene Muster dasjenige des ersten Musters ist; (c) Auswählen eines neuen Szenenbereichs, der aus einer Vielzahl von Szenenbereichen zu sehen ist, die mit dem aktuellen Szenenbereich eine räumliche Anordnung von Bereichen entsprechend der räumlichen Anordnung erster Muster in jedem zweiten Muster festlegen, wobei die Auswahl des neuen Szenenbereichs, der zu sehen ist, die Verfahrensschritte umfaßt (i) Verwenden der vorbestimmten Auftrittsgeschwindigkeiten zum Berechnen eines jeden der Vielzahl von Szenenbereichen, die sich vom aktuellen Szenenbereich unterscheiden, eines jeweiligen Informationswertes (T), der die Informationsmenge festlegt, die beim Betrachten des Szenenbereich als verfügbar zu erwarten ist, um eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz zu bestimmen, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist; und (ii) Auswählen des neuen zu betrachtenden Szenenbereichs in Abhängigkeit von den berechneten Informationswerten (T) und dem Abstand (p) eines jeden der Vielzahl von Szenenbereichen aus dem aktuellen Szenenbereich; (d) Erzeugen eines Steuersignals zum Bewegen des Betrachtungsgerätes, um den ausgewählten neuen Szenenbereich zu sehen; (e) Erfassen eines Merkmalspunktes in Daten, die den neuen vom Betrachtungsgerät gesehenen Szenenbereich darstellen, und Auslesen eines Musters aus den Daten in Abhängigkeit von der Merkmalspunktposition; (f) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes Musters, die die Wahrscheinlichkeit festlegt, daß das aus dem neuen Szenenbereich ausgelesene Muster das erste Muster ist; und (g) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
Gerät nach Anspruch 10, dessen Verarbeitungsmittel betriebsbereit ist zum Ausführen der Verarbeitung zum Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz durch: Bestimmen, ob ein zweites Muster als ein zweites in der Szene vorhandenes Muster identifizierbar ist, und: (i) im Falle, daß die Identifikation erfolgen kann, Auswählen des identifizierten zweiten Musters; (ii) im Falle, daß die Identifikation nicht erfolgen kann, Wiederholen der Schritte (c)(ii), (d), (e), (f) und des gegenwärtigen Schrittes, bis ein Muster im zweiten Satz als ein zweites Muster identifiziert werden kann, das in der Szene vorhanden ist, oder bis eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster bestimmt ist, das eine Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
Gerät nach Anspruch 10 oder 11, dessen Verarbeitungsmittel weiterhin betriebsbereit ist zum Ausführen der Arbeit unter Bezug auf einen dritten Satz (Ω(2)) von dritten Mustern, wobei jedes dritte Muster ein mögliches Muster in der Szene und jedes dritte Muster eine räumliche Anordnung eines jeweiligen Musters aus einer Vielzahl zweiter Muster darstellt, um eine jeweilige Auftrittswahrscheinlichkeit für jedes dritte Muster im dritten Satz zu bestimmen, der eine Wahrscheinlichkeit darstellt, daß das dritte Muster in der Szene vorhanden ist.
Gerät nach einem der Ansprüche 10 bis 12, bei dem die das Bild aus dem Betrachtungsgerät darstellenden Daten das Bild in einem Vielfachauflösungsraum darstellen, und bei dem das Verarbeitungsmittel betriebsbereit ist, einen Merkmalspunkt durch Feststellen eines Merkmalspunktes im Vielfachauflösungsraum festzustellen.
Gerät nach Anspruch 13, dessen Verarbeitungsmittel betriebsbereit ist zum Auslesen eines Musters in Abhängigkeit von der Position eines festgestellten Merkmalspunktes durch Auslesen eines Musters in einer vorbestimmten Tiefe des Mehrfachauflösungsraumes.
Gerät nach einem der Ansprüche 10 bis 14, dessen Verarbeitungsmittel betriebsbereit ist, einen Merkmalspunkt durch Verarbeiten der Daten zum Erzeugen eines als Funktion einer komplexen Variablen ausgedrückten Vektorfeldes und zum Ausführen der Verarbeitung unter Verwendung des Grundprinzips, um einen Merkmalspunkt festzustellen.
Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel über einen stochastischen Automaten verfügt, der eine Vielzahl von Zellen besitzt, und wobei die Muster in jedem Satz im stochastischen Automaten festgelegt sind.
Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel ein neuronales Netz vom Hopfield-Typ enthält und bei dem die Muster in jedem Satz im neuronalen Netz des Hopfield-Typs festgelegt sind.
Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel eine Vielzahl neuronaler Netze der symmetrisch verbundenen Art enthält, und wobei die Muster eines jeden Satzes in der Vielzahl neuronaler Netze festgelegt sind.
Computerprogramm mit Befehlen zum Programmieren eines programmierbaren Verarbeitungsgerätes, um betriebsbereit zu werden zum Ausführen eines Verfahrens, das wenigstens in einem der Ansprüche 1 bis 9 angegeben ist.
Speichermedium, das ein Computerprogramm nach Anspruch 19 speichert.