DE69634221T2 - Verfahren und Gerät zur Verarbeitung visueller Information - Google Patents

Verfahren und Gerät zur Verarbeitung visueller Information Download PDF

Info

Publication number
DE69634221T2
DE69634221T2 DE69634221T DE69634221T DE69634221T2 DE 69634221 T2 DE69634221 T2 DE 69634221T2 DE 69634221 T DE69634221 T DE 69634221T DE 69634221 T DE69634221 T DE 69634221T DE 69634221 T2 DE69634221 T2 DE 69634221T2
Authority
DE
Germany
Prior art keywords
pattern
scene
probability
feature point
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69634221T
Other languages
English (en)
Other versions
DE69634221D1 (de
Inventor
Teruyoshi Washizawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of DE69634221D1 publication Critical patent/DE69634221D1/de
Publication of DE69634221T2 publication Critical patent/DE69634221T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung betrifft die Steuerung der Betrachtungsrichtung eines Betrachtungsgerätes. Die Steuerung läßt sich beispielsweise anwenden bei einer Eingabeeinheit, einer Bildcodier- und Decodiereinheit, einer Bilderkennungseinheit, einer Bildwiederherstellungseinheit, einer Überwachungseinheit, einem automatischen Fahrzeug oder einem Roboter.
  • Lebende Organismus haben Funktionen, die in der Lage sind, die Umgebung genau zu einem Ausmaß eines Erfordernisses unter Verwendung einer endlichen Zahl von Verarbeitungseinheiten zu erkennen und befassen sich mit der erkannten Umgebung. Der Dynamikbereich derartiger Signale, die erforderlich sind zum Erkennen der Umgebung, ist sehr weit, wenn alle möglichen Situationen angenommen werden. Was die visuelle Information beispielsweise angeht, so sind visuelle Sensoren lebender Organismen tatsächlich endlich. Jedoch erstreckt sich die Umgebung in allen Azimutrichtungen. Folglich haben lebende Organismen kein Übertragungsmittel und müssen Signale mit erforderlicher Auflösung für alle Azimutrichtungen für die Umgebung erkennen. Wenn ein lebender Organismus ein Übertragungsmittel hat, das heißt, ein Mittel zum Ändern der Beobachtungsparameter für den Sensor, kann die Belastung des visuellen Erkennungssystem für den lebenden Organismus beträchtlich verringert werden. Der Grund hierfür liegt darin, daß die in Betracht gezogenen Plätze als bedeutungsvoll zum Erkennen erforderlich sind, mit Eingaben in hinreichend hoher Auflösung vollziehen zu können, und die Eingabe ist in anderen Fällen nicht erforderlich.
  • Ein herkömmliches Bildeingabegerät ist eingerichtet worden, gleichförmig ein Gegenstandsbild abzutasten, wie es eine CCD-Kamera oder ein Scanner ausführt. Ein Bildeingabegerät der vorstehenden Art kann Bilddaten endlicher Zonen mit einer gewissen Auflösung erzielen. Wenn ein Bild zu einem Abschnitt visueller Information in Betracht gezogen wird, ist die wesentliche Ausgabe bei der visuellen Verarbeitungsinformation als Annahme dreidimensionaler visueller Information aus dem gewonnenen zweidimensionalen Bild anzunehmen. Um mit dem vorstehenden Ausgang zu Rande zu kommen, werden die beiden Arten von Annäherungen ausgeführt.
  • Untersuchungen und Entwicklungen des visuellen Systems lebender Organismen, die in den 90er Jahren mit Nachdruck ausgeführt wurden, kann ein Hauptabschnitt der Untersuchungen unter Verwendung mathematischer Modelle genannt werden, die aus der Idee von Marr abgeleitet sind (D. Marr: "Vision" W.H. Freeman und Co.NY (1982)). Die vorstehenden Untersuchungen werden "Computational Vision" genannt, gefolgt von den Untersuchungen, die mit Ideen statistischer Physik entwickelt worden sind, wie die Regularisationstheorie, das Markovsche Zufallsfeld, der Zeilenprozeß und die Anwendung einer Normierungsgruppe. In der zuvor genannten Diskussion sind jedoch endliche Zahlen von Bilddatenpunkten, die zuvor angegeben worden sind, als zum Gegenstand visueller Information in der Weise gemacht worden, daß die dreidimensionale Struktur abgeschätzt wird aus zweidimensionalen Bildsätzen. Das vorstehende Verfahren entspricht einer Abschätzung der dreidimensionalen Welt durch Betrachtung, beispielsweise einer Fotographie oder eines Bildes. Ein Problem, das die dreidimensionale Struktur aus einer gegebenen Information abschätzt, ist schlechtgelagert, weil die Lösung eine Zwischenlösung ist. Folglich ist man mit dem Problem unter Verwendung von Kenntnissen zu Rande gekommen.
  • Andererseits ist zur selben Zeit ein Verfahren erdacht worden, bei dem das Betrachtungseingabesystem gesteuert wird, Information hinreichend zum Erkennen aufzubereiten, und dann wird die Umgebung erkannt, das heißt, Animate Vision, offenbart von Ballard (D. H. Ballard: "Behavioural constraints on animate vision", image und vision computing, Ausgabe 7, Nr. 1, Seiten 3–9 (1989)). Das vorstehende methodisch angelegte Verfahren beabsichtigt, die schlechte Eigenschaft zu überwinden, die bei der visuellen Informationseingabe besteht, zunächst durch ein Mittel des Eingebens von Daten, die unter Verwendung eines anderen Betrachtungsparameters gewonnen werden. Als Betrachtungsparameter können die Richtung der optischen Achse eines optischen Systems und das Zoomen verwendet werden. Die wichtigste Tatsache ist das Bestimmen "des zunächst zu suchenden Gegenstands" und "einen zunächst zu betrachtenden Ort", das heißt, ein Verfahren des Steuerns der Betrachtungsparameter.
  • 1. Verfahren, das von Ballard et al. Veröffentlicht wurde (D. H. Ballard und C.M. Brown: "Principles of Animate Vision", GVGIP: IMAGE UNDERSTANDING, Ausgabe 156, Nr. 1, Seiten 3 bis 21 (August 1992).
  • Das Betrachtungsumgebungserkennungssystem umfaßt ein Bildeingabegerät, das zwei Arten von Bildeingabeverfahren enthält, und aus einer Fovealbetrachtung einer kleinen Zone besteht, die der optischen Achse benachbart ist, mit einer hohen Auflösung, und einer Peripherbetrachtung zum Abtasten einer großen Zone entfernt von der optischen Achse, mit einer geringen Auflösung. Somit kann das Erkennen eines Gegenstands ohne Ausnahme erfolgen, wenn die Fovealbetrachtung verwendet wird. Die Kenntnisdaten werden ausgedrückt durch eine Baumstruktur, wie bei einem IS-A-Baum, oder einem Teilbaum, und eine Wahrscheinlichkeitsstruktur wird in die Beziehung zwischen die Gegenstände eingeführt. Eine Strategie ist entwickelt worden, bei der die Nutzfunktion festgelegt ist zwischen der Informationsmenge, gewonnen nach einer gewissen Operation, die abgeschlossen ist, und verbrauchter Energie zum Ausführen der Operation entsprechend der zuvor genannten Baumstruktur und der Wahrscheinlichkeitsstruktur; und die Nutzfunktion wird zum Bestimmen einer nächsten Operation verwendet.
  • 2. Das von Ballard et al. Offenbarte System hat ein Verfahren angewendet des direkten Suchens eines als nächsten zu suchenden Gegenstands. Wixson et al. hat ein indirektes Suchverfahren als Betrachtungspunktsteuerverfahren vorgeschlagen zum Suchen eines Gegenstands eines Objekts, das der Gegenstand ist (LE. Wixon und DH. Ballard: "Using intermediate objects to improve the efficiency of visual search", Int'l., J. Computer Vision, 12:2/3, Seiten 209 bis 230, (1994). Das indirekte Suchverfahren führt eine Suche gemäß der räumlichen Lagebeziehung zwischen einem Objekt aus, das durch Betrachtung identifiziert wurde, und einem beabsichtigten Objekt. Unter der Annahme, daß das beabsichtigte Objekt eine Kaffeetasse ist und die identifizierten Gegenstände ein Tisch, ein Stuhl und eine Wandtafel sind, wird das Eingabesystem in der Weise gesteuert, daß die Position, bei der der Tisch die signifikanteste räumliche Lagebeziehung mit der Kaffeetasse hat, weiter mit hoher Auflösung betrachtet.
  • Ein System, das von Brooks et al. offenbart ist (RA. Brooks "New Approaches to Robotics", Science, Ausgabe 25, Seiten 1227 bis 1232, (1991)), enthält wenigstens zwei grundlegende Verarbeitungsprogramme, die die Verbindung zwischen den Sensoreingangssignalen und den Stellgliedausgangssignalen einrichten. Tani et al. Hat ein System vorgeschlagen mit einer solchen Struktur, das Regeln in Zeit die sequentiellen Signalvektoren von Sensoreingangssignalen vorhanden sind, wie durch Lernen aufgenommen, und die Regeln werden verwendet in einem Verhaltensmuster (hier siehe japanische offengelegte Patentanmeldung Nr. 6-274224). Nach dem vorstehenden Verfahren kann ein System, das auf eine unbekannte Umgebung angepaßt werden kann, aufgebaut werden. Darüber hinaus ist ein Mechanismus vorgesehen, in dem eine der Aktionen ausgewählt wird, selbst wenn eine Vielzahl möglicher Aktionen vorhanden ist.
  • Zusätzlich zu den vorstehenden herkömmlichen und repräsentativen Theorien sind folgende Vorschläge gemacht worden:
    • R. Rimey und C.M. Brown: "Task-Oriented Vision with Multiple Bayes Nets", in "Active V ision", A. Blake und A. Yuille (Herausgeber) MIT press, 1992,
    • S. Geman und D. Geman: "Stochastic Relaxation, Gibbs Distributions, und the Bayesian Restoration of Image", IEEE Trans. On Pattern Anal, Machine Intell., Ausgabe 6, Nr. 6, Seiten 721 bis 741 (Nov. 1984),
    • B. Gidas: "A Renormalization Group Approach to Image Processing Problems", IEEE Trans on Pattern Anal. Machine Intell., Band 11, Nr. 2, Seiten 164180 (Februar 1989),
    • Kawato und Inui: "Computional Theory of the Visual Cortical Areas", IEICE Trans., Band J73-D-II, Nr. 8, Seiten 1111–1121 (August 1990),
    • D.V. Lindley: "On a measure of the information provided by an experiment", Ann. Math. Stat., Band 27, Seiten 986–1005 (1956),
    • K.J. Bradshaw, P.F. McLauchlan, I.D. Reid und D.W. Murray: Saccade und pursuit on an active head/eye platform", Image und Vision Computing, Band 12, Nr. 3, Seiten 155–163 (April 1994), und
    • J.G. Lee und H. Chung: "Global path planning for mobile robot with grid-type world model", Robotics and Computer-Integrated Manufacturing, Band 11, Nr. 1, Seiten 13–21 (1994).
  • Da jedoch ein Hauptabschnitt der vorstehenden Computertheorien über Information abgehandelt worden ist, erzielbar aus gegebenen Bildern (Setzen von Bildern), sind die erzielten Ergebnisse nur Schätzwerte. Da die Welt unter Verwendung der Betrachter ausgerichteten Koordinatensysteme beschrieben wird, ist die Behandlung beweglicher Objekte zu komplex.
  • Da andererseits Animate Vision ein objektorientiertes Koordinatensystem zum Beschreiben der Welt verwendet, kann die Behandlung beweglicher Objekte relativ vereinfacht werden. Die Betrachtungspunktsteuerung, die die wichtigste Steuerung ist, hat jedoch mit gewissen Problemen zu rechnen, das heißt:
    • 1. Verfahren zur Erkennung einer Minimaleinheit eines Objekts, das Kenntnis aufbaut, ist nicht abgehandelt worden. Das heißt, die Diskussion wurde geführt unter der Annahme, daß das Erkennen der Minimaleinheit leicht ist.
    • 2. Die Beschreibung erfolgte so, daß die Kenntnis vom Wissensingenieur beschrieben wurde. Das heißt, die Kenntnis der Umgebung, die durch menschliche Wesen nicht bekannt ist, kann nicht angegeben werden.
  • Das beispielsweise im japanischen Patent Nr. 6-274224 beschriebene System ist ein solches, bei dem die Kenntnis durch Lernen angenommen wird. Da jedoch Ein/Ausgabedaten und die Strukturen des neuronalen Netzwerks im allgemeine Strukturen sind, kann eine hierarchische Struktur immer herangenommen werden. Selbst wenn das neuronale Netzwerk die Leistung zum Hereinnehmen der hierarchischen Struktur hat, kann darüber hinaus erwartet werden, daß eine exzessiv lange Zeit dafür erforderlich ist.
  • "An Active Vision System for a Location Task Using an Inhomogeneously Blurred Image" von Yagi et al in International Conference on Neural Networks, 27. bis 29. Juni 1994, New York, Seiten 3693–3696, XP000510501, beschreibt ein Verfahren zum Feststellen der Orte von Gegenständen unter Verwendung eines inhomogen verzerrten Bildes. Ein kameraaufgenommenes Bild wird mit hoher Auflösung nahe der optischen Achse von der Kamera verarbeitet, und mit geringer Auflösung in der Peripherie. Beginnt man mit der Mitte eines Bildes einer CCD-Kamera, die hin zu einem jeden Gegenstand bewegt werden wird, und bildet flache Vertiefungen mit der optischen Achse innerhalb weniger Bewegungen.
  • "A New Neural Net Approach to Robot 3D Perception and Visuo-Motor Coordination" von Lee in International Joint on Neural Networks, Ausgabe 1, 7. – 11. Juni 1992, New York, Seiten 299 bis 307, XP000340233 beschreibt eine neuronale Netzannäherung an robotersichtabhängig geführte Motorkoordinaten. Visuelle servobildende Fehler werden erzielt durch Projektion des Roboteraufgabenraums auf ein 3D-Wahrnehmungsnetz (das den internen Roboter-3D-Raum darstellt) und eine integrale Änderung vom 3D-Raum der Armkonfiguration im 3D-Wahrnehmungsnetz auf der Grundlage eines feldbasierenden reaktiven Wegplanungspotentials erzeugt.
  • Nach der vorliegenden Erfindung vorgesehen ist ein Verfahren, wie es im Patentanspruch 1 angegeben ist.
  • Die Erfindung sieht auch ein Gerät vor, wie es im Patentanspruch 10 angegeben ist.
  • Die Erfindung sieht weiter ein Computerprogrammprodukt vor, wie es im Patentanspruch 19 angegeben ist.
  • Optionale Merkmale sind in den Patentansprüchen 2 bis 9, 11 bis 18 und 20 angegeben.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • 1 ist ein Diagramm, das die Blockstruktur eines Betrachtungsinformationsverarbeitungsgerätes nach einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 2 ist ein Diagramm, das die Transformation der Koordinaten durch ein Weitwinkelobjektiv zeigt;
  • 3 ist ein Graph, der die Frequenzkennlinie des Weitwinkelobjektivs zeigt;
  • 4 ist ein Graph, der die von einem Sensor zu erfassende Ortsfrequenz zeigt;
  • 5 ist ein Graph, der ein Ortsmuster auf einem Mehrfachauflösungsraum zeigt;
  • 6 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers nach dem ersten Ausführungsbeispiel zeigt;
  • 7 ist ein Diagramm, das ein Beispiel eines stochastischen Automaten nach dem ersten Ausführungsbeispiel zeigt;
  • 8 ist ein Diagramm, das ein Beispiel einer hierarchischen Darstellung zur Verwendung im Ausführungsbeispiel zeigt;
  • 9 ist ein Diagramm, das ein Beispiel einer Betrachtungsumgebung zur Verwendung im Ausführungsbeispiel zeigt;
  • 10 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes nach dem zweiten Ausführungsbeispiel zeigt;
  • 11 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers zeigt, nach dem zweiten Ausführungsbeispiel;
  • 12 ist ein Diagramm, das ein Beispiel eines neuronalen Netzwerks der Hopfield-Art zeigt;
  • 13 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Überwachungsgerätes zeigt, nach einem dritten Ausführungsbeispiel;
  • 14 ist ein Ablaufdiagramm, das ein Beispiel des Betriebs vom Überwachungsgerät nach dem dritten Ausführungsbeispiel zeigt;
  • 15 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes zeigt, nach dem vierten Ausführungsbeispiel;
  • 16 ist ein Diagramm, das ein Beispiel der Struktur eines Quantisierers zeigt, nach dem vierten Ausführungsbeispiel;
  • 17 ist ein Diagramm, das ein Beispiel der Struktur einer symmetrisch verbundenen neuronalen Netzwerkgruppe zeigt; und
  • 18 ist ein Diagramm, das ein Beispiel der Struktur eines symmetrisch verbundenen neuronalen Netzwerk zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Unter Bezug auf die Zeichnung sind nachstehend bevorzugte Ausführungsbeispiele der vorliegenden Erfindung beschrieben.
  • Erstes Ausführungsbeispiel
  • 1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Betrachtungsinformationsverarbeitungsgerätes nach diesem Ausführungsbeispiel zeigt. Die Arbeitsweisen der Komponenten sind nachstehend nacheinander beschrieben.
  • Linsensystem 1
  • Ein Linsensystem 1 ist ein solches, das über eine Weitwinkellinse (einschließlich einer Fischaugenlinse) verfügt und eingerichtet ist zur optischen Eingabe eines Bildes. Das Linsensystem 1 kann eine übliche Linse enthalten.
  • 2 zeigt ein Beispiel einer Koordinatentransformation mit der Weitwinkellinse des Linsensystems 1. Unter Bezug auf 2 zeigt Symbol x Radiusvektoren eines Polarkoordinatensystems auf einer Abbildungsoberfläche auf, die sich vor dem Eingabesystem befindet, und t zeigt Radiusvektoren des Polarkoordinatensystems auf, nachdem t von der Weitwinkellinse transformiert worden ist. Im optischen System dieses Ausführungsbeispiels wird der Winkel (Winkel θ vom Polarkoordinatensystem auf einer Ebene senkrecht zur Oberfläche des Zeichnungsblattes) vom Polarkoordinatensystem beibehalten. Die Beschreibung, die unter Bezug auf 2 auszuführen ist und die folgende Beschreibung wird ausgeführt nur in der Richtung des Radiusvektors.
  • Unter Verwendung eines Einfallswinkels ϕ und der Brennweite ξ kann x und t folgendermaßen ausgedrückt werden: t = 2 ξ tan (ϕ/2) (1) x = ξ tan (ϕ) (2)
  • Somit kann x durch die folgende Gleichung als Funktion von t ausgedrückt werden: X = t/{1 – (t/2 ξ)2] (3)
  • Die vorstehende Gleichung ist eine Koordinatentransformation mit der Weitwinkellinse.
  • Wenn ein Frequenzmuster f (0) in Radialrichtung, die sich über die gesamte Bildebene erstreckt, durch das Linsensystem 1 auf die Ebene eines Matrixsensors 2 projiziert wird, kann eine Ortsfrequenz der Radialrichtung bei der Position der Ebene des Matrixsensor 2 entfernt von der optischen Achse 10 für den Abstand t durch folgende Gleichung (4) ausgedrückt werden: f(t) = f(0) {(1 – (t/2 ξ)2)2/{1 + (t/2 ξ)2} (4)
  • Das Polarkoordinatensystem (t, θ) wird aktuell so verwendet, daß eine 2D-Abbildung f (t, θ) ausgegeben wird. Wenn tatsächlich ein beliebiges Objekt, das in einem aktuellen 3D-Raum existiert, zum Gegenstand gemacht wird, ist nur die Beziehung zwischen Einfallswinkel ϕ und θ bekannt, und θ muß gewonnen werden. Folglich wird die folgende Koordinatentransformation ausgeführt: t = 2 ξ tan (ϕ/2) (5)
  • Angemerkt sei, daß einige Weitwinkellinsen die Koordinatentransformationsregeln anders als die vorstehenden Regeln ausführen. Eine derartige Weitwinkellinse kann im Linsensystem 1 folglich anstelle der vorstehenden Weitwinkellinse verwendet werden.
  • Matrixsensor 2
  • Der Matrixsensor 2 tastet das 2D-Bild f(t, θ), der Koordinaten ab, die das Linsensystem 1 transformiert hat, durch Sensoren, die in der Form einer zweidimensionalen Gliederung angeordnet sind, um ein diskretes 2D-Bild zu erhalten. Der Index vom oberen linken Sensor im Matrixsensor 2 ist eingerichtet auf (1, 1) und der Index vom Sensor an der m-ten Stelle in Horizontalrichtung und der n-ten Stelle in Vertikalrichtung wird mit (m, n) beschrieben.
  • Der integrale Kern sei ψ Index m, n (X), und das Ausgangssignal gm,n vom Sensor (m, n), so gilt:
    Figure 00110001
    somit bildet {gm,n}m,n ein diskretes 2D-Bild
  • 2D-filter 3
  • Ein 2D-Filter 3 empfängt ein Ausgangssignal aus dem Matrixsensor 2, das heißt, das diskrete 2D-Bild {gm,n}m,n, als Eingangssignal dazu, gefolgt von der Maskierverarbeitung, um eine Mehrfachauflösungserweiterung auszuführen.
  • Figure 00110002
  • Die vorstehende Maske verwendet einen Operator ∇2G:
    Figure 00110003
  • Auch die folgenden Operatorsätze sind effektiv.
    • (a) eine Vielzahl des Operators ∇2G mit unterschiedlichen Ortskonstanten: isotrope Bandpassfiltersätze können gebildet werden.
    • (b) Mehrere Gaboroperatoren mit unterschiedlichen Ortskonstanten und Richtungen: Bandpassfiltersätze abhängig von den Richtungen können gebildet werden.
  • 3 veranschaulicht die Beziehung zwischen dem Frequenzband in Radialrichtung, die von einem System festzustellen ist (wird nachstehend Weitwinkellinseneingabeeinheit genannt), gebildet aus der Kombination des Linsensystems 1, dem Matrixsensor 2 und dem 2D-Filter 3 und der Entfernung von der optischen Achse 10. 3 zeigt einen Pfeil, bei dem der rauminvariante Maskenoperator ∇2G verwendet wird als 2D-Filter 3. Das vorstehende System gleicht in etwa einem Bildfilter, das so aufgebaut ist, daß der integrale Kern abhängig von der Richtung der Hochfrequenzkomponenten ist, die gelöscht werden, da der Abstand von der optischen Achse verlängert ist. Wie sich aus 3 verstehen läßt, ermöglicht die Änderung der Richtung von der optischen Achse, die Gesamtzone des Frequenzraums zu bedecken.
  • Die vorstehende Betrachtung kann verwirklicht werden mit Ergebnissen einer in 4 gezeigten Simulation. Aus 4 ergibt sich, daß die Mittenfrequenz, die von der Weitwinkellinseneingabeeinheit zu erfassen ist, monoton ansteigt, wenn der Versatz von der optischen Achse größer wird. Alle Komponenten, die niedriger als die höchste feststellbare Frequenz sind, werden darüber hinaus von der Einheit erfaßt.
  • Merkmalsauslese 4
  • Ein Merkmalsausleser 4 liest die Maximalpunkte aus dem Bildausgabesignal vom 2D-Filter 3 aus zur Verwendung der Maximalpunkte als Merkmale, und gibt deren Koordinaten aus. Die Koordinaten in den vorstehenden Merkmale werden übersetzt in einer Eingabeparametersteuerung 8, um so zum Bestimmen des Steuerumfangs vom Eingangsparameter verwendet zu werden.
  • Das 2D-Filter und der Merkmalsausleser 4 können folgendermaßen unter Verwendung des Hauptprinzips aufgebaut sein. Im 2D-Filter 3 wird Gradient (∇) veranlaßt, das Bild {gm,n}m,n so zu beeinflussen, daß das Vektorfeld {ωm,n} erzeugt wird. ωm,n = ∇ gm,n {(gm,n – gm-1,n)/Δx}e1 + {(gm,n – gm,n-1)/Δy}e2 (9) wobei e1 und 32 die Elemente der Basis sind, Δx und Δy sind Gitterabstände in Horizontal- und in Vertikalrichtung. Dann wird die Richtung des Vektors bei jedem Punkt (m, n) gewonnen. Arg (ωm,n) = arctan[{(gm,n – gm,n-1)/Δy}/{(gm,n – gm,n-1)/Δx}] (10)
  • Wird das Vektorfeld ausgedrückt durch eine Funktion einer komplexen Variablen, dann ist die vorstehende Richtung ein Argument einer komplexen Zahl. Unter Verwendung des Argumentprinzips kann der Nullpunkt und ein Pol festgestellt werden.
  • Das Argumentprinzip ist nachstehend beschrieben. Folgende Annahmen sollen gültig sein. Die Funktion f(z) ist eine meromorphische in einer einfach angeschlossenen Domäne D; C ist eine einfache geschlossene Kurve in der Domäne D; der Nullpunkt und der Pol von f(z) existiert nicht auf der Kurve C; und f(z) hat Nullpunkte, deren Reihenfolge λj bei aj (j = 1, 2, ..., m) liegt, und Pole, deren Reihenfolge μk bei bk (k = 1, 2, ..., n) ist. Der Winkelanstieg Δc arg f (z) realisiert durch Abrunden der Kurve C vom Startpunkt z0, kann durch folgende Gleichung angegeben werden, wenn die Anzahl Nullpunkte und diejenige der Pole ausgedrückt wird mit
    Figure 00130001
    Δc arg f (z) = 2π (NZ(f) – Np(f)) (11)
  • Ein Verfahren zum Erfassen des Merkmals vom Vektorfeld (ωm,n)m,n unter Verwendung des vorstehenden Prinzips ist nachstehend beschrieben.
  • In Schritt 1 wird "n" auf 1 gesetzt.
  • In Schritt 2 wird "m" auf 1 gesetzt.
  • In Schritt 3 wird ein geeigneter Nachbar relativ zu (m, n) in Betracht gezogen. Beispielsweise werden 8 Nachbarn ausgesucht, das heißt, {(m – 1, n – 1), (m, n – 1), (m + 1, n – 1), (m – 1, n), (m + 1, n), (m – 1, n + 1), (m, n + 1) und (m + 1, n + 1)} (12)
  • In Schritt 5 resultiert das Argumentprinzip in der Anzahl von Nullpunkten und Polen in der Zone, die vom vorstehenden Nachbarn umgeben ist, folgendermaßen, wobei die Anzahlen unter Berücksichtigung der Reihenfolge angegeben sind: Nz (ω) = Np (ω) = (Δc arg ωm,n)/2π (13)
  • Δc arg ωm,n wird folgendermaßen berechnet: Δc arg ωm,n = Y (ωm+1,n+1, ωm-1,n) + Y (ωm,n+1, ωm+1,n+1) + Y (ωm-1,n+1, ωm,n+1) + Y (ωm-1,n, ωm-1,n+1) + Y (ωm-1,n-1, ωm-1,n) + Y (ωm,n-1, ωm-1,n-1) + Y (ωm+1,n-1, ωm,n-1) + Y (ωm+i,n, ωm+1,n-1) (14)wobei Y (x, y) = argx – argy, wenn argx – argy ≤ π argy – argx anderenfalls (15)
  • In Schritt 6 wird m auf m + 1 erhöht.
  • In Schritt 7 wird bestimmt, ob m außerhalb des Bereichs vom Bild liegt. Liegt m außerhalb des Bereichs, schreitet der Ablauf fort zu Schritt 8. Liegt m nicht außerhalb des Bereichs, werden die Prozesse des Schrittes 2 wiederholt.
  • In Schritt 8 wird n auf n + 1 erhöht.
  • In Schritt 9 wird bestimmt, ob n außerhalb des Bildbereichs liegt. Liegt n außerhalb des Bildbereichs, dann erfolgt die Beendigung der Operation. Liegt n nicht außerhalb des Bildbereichs, werden die Prozesse beginnend mit Schritt 3 wiederholt.
  • Der Merkmalsausleser 4 stellt Punkte fest, die die Anzahl Nz(ω) – Np(ω) enthalten, die aufgrund des vorstehenden Argumentprinzips gewonnen werden und einen negativen Wert haben. Im Ergebnis werden die Zonen, in denen die Anzahl von Polen größer als die Anzahl von Nullpunkten ist, festgestellt. In einer hinreichend kleinen Domäne werden Punkte erfaßt, bei denen Pole vorhanden sind.
  • Transformierungscodierer 5
  • Ein Transformierungscodierer hat die Funktion, die die Bilddaten transformiert, die auf einem Mehrfachauflösungsraum vom 2D-Filter 3 in einen Ortsmusterraum aufgelistet sind und die transformierten Daten gesendet werden.
  • Anfänglich werden benachbarte Koordinaten ((Sf (= 2k), bf) mit der Tiefe d im Mehrfachauflösungsraum Nd(Sf, bf) folgendermaßen festgelegt: S = 2p; p = {k, k-1, ..., Max (0, k-d)} (16) b = bf ± {(m-1/2)2pΔx, (n-1/2)2pΔy)}; m,n = {1, ..., 2k-p} (17)wobei sf und bf der Maßstab sind (kann angesehen werden als Invers- oder Ortsfrequenz) in den Raumkoordinaten des Merkmals, den der Merkmalsausleser 4 jeweils erfaßt, und Δx und Δy sind Entfernungen zwischen den Sensoren des Matrixsensors 2 in den Richtungen x beziehungsweise y.
  • 5 zeigt N2 (sf, bf) 51. Die Position (sf, bf) von N2 (sf, bf) 51 unterscheidet sich vom Mehrfachauflösungsraum, der Domäne, die das Ortsmuster überdeckt, das heißt die aktuelle Raumdomäne (mit der Breite von b) und der Maßstabsdomäne (die Breite von s, die der Ortsdomäne entspricht) sind unterschiedlich, wie durch die Bezugszeichen 52 und 53 aufgezeigt. Die mit N2 (s53, b53) überdeckte Domäne ist nämlich die aktuelle Domäne 55 und eine Maßstabsdomäne 57, während die mit N2 (s52, b52) überdeckte Domäne eine aktuelle Domäne 54 und eine Maßstabsdomäne 56 ist. Die Nachbarschaft mit der Tiefe "0" drückt insbesondere das Pixel bei der Position des Merkmals aus.
  • Somit ist Nα (Sf, bf) gleich einem Vierfachbaum (ein Binärbaum in 5) mit der Wurzel, die die Koordinaten (Sf, bf) im Mehrfachauflösungsraum sind. Das Lokalmuster Pd(Sf, bf) von (Sf, bf) mit der Tiefe d in den Koordinaten des Mehrfachauflösungsraums ist zusammengesetzt, indem die Intensität einem jeden Knoten von N0 (St, bf) angepaßt ist. Der Ortsmusterraum mit der Tiefe d ist ein funktionaler Raum, der angeordnet ist durch Festlegen des Innenprodukts für einen Satz von Vierfachbäumen mit Tiefe d. Durch Berücksichtigung des Ortsmusters im Mehrfachauflösungsraum kann die Invarianz vom 3D-Objekt in Hinsicht auf eine Bewegung gewisser Art gewonnen werden. Die Tiefe (beispielsweise der bedeckte Bereich des Maßstabs) unterscheidet sich jedoch abhängig vom Objekt.
  • Das Format von aus dem Transformationscodierer 5 zu sendenden Daten in Hinsicht auf einen diskreten Mehrfachauflösungsraum s = {s0, s1, s2} b {b0, b1, ..., bj, ..., bJ) in einem Beispielsfall, bei dem nur ein Ortsmuster der Tiefe 2 folgendermaßen dargestellt wird: {(b0, (P2 (s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2 (s0, b1), P2(s1, b1), P2 (s2,b1))), (bJ, (P2 (s0, bJ), P2 (s1, bJ), P2 (S2,bJ)))} (18)
  • Quantisierer 6
  • 6 zeigt die detaillierte Struktur eines Quantisierers 6. Aus dem Transformationscodierer 5 empfängt der Quantisierer 6 Daten beispielsweise in folgender Form: {(b0, (P2 (s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2 (s0, b1), P2(s1, b1), P2 (s2,b1))), (bJ, (P2 (s0, bJ), P2(s1, bJ), P2(S2,bJ)))} (19)
  • Beispielsweise quantisiert der Quantisierer 6 das Ortsmuster der vorangehenden Daten zum Umsetzen der Daten in ein Codewort S2 (sf, bf) ∊ Z. {(b0, (P2(s0, b0), P2(s1, b0), P2(s2, b0))), (b1, (P2(s0, b1), P2(s1, b1), P2(s2,b1))), bJ, (S2(s0, bJ), S2(s1, bJ), S2(S2,bJ)))} (20)
  • Nachstehend kurz erläutert ist die Prozedur, die der Quantisierer 6 ausführt.
    • (a) j sei 0.
    • (b) Daten bezüglich Merkmal bj, das heißt, die folgenden Daten werden an den Quantisierer 6 im Anfangsfalle geliefert: {(b0, (b0, P2(s0, b0), P2 (s1, b0), P2(s2, b0)))), (21)
    • (c) Datenpunkte P2(S0, b0), P2(S1, b0), beziehungsweise P2(s2, b0) werden an die Quantisierer 61, 62 und 63 geliefert und entsprechende Codewörter S2(S0, b0), S2(S1,b0), S2(S2, b0) werden gesendet. Alle Quantisierer 61, 62 und 63 verwenden gleichzeitig ein Codebuch 64.
    • (d) (b0, ( S2(s0, b0), S2(S1, b0), S2(s2, b0))) werden gesendet.
    • (e) Es sei j ← j + 1, und dann erfolgt die Rückkehr zu Schritt (b).
  • Der Quantisierer 6 besitzt einen Lernmodus zum Erfassen des repräsentativen Vektors und einen Ausführungsmodus zum Codieren des angelieferten Signals, wobei die vorstehenden Modi in der Lage sind, von einer üblichen Vektorquantisierungstechnik realisiert zu werden.
  • Das Codebuch 64 gibt eine Nummer (Codewort) an das vorstehende Ortsmuster, ausgedrückt als Satz von Komponentenintensitäten bei jeder Knotenposition. Das Codebuch 64 kann beispielsweise gebildet werden durch einen Lernvektorquantisierungsprozeß, der später zum zweiten Ausführungsbeispiel zu beschreiben ist. Als Alternative dazu können Zahlen allen auftretenden Ortsmustern sequentiell zugeordnet werden.
  • Das heißt, das gegebene Bild wird kopiert als Koordinatensatz der Position vom Merkmal und vom Codewort des Ortsmusters. Die vorstehende Codierung enthält eine bemerkenswerte Redundanz in dem Sinne, daß eine enge Korrelation zwischen den räumlich benachbarten Ortsmustern besteht. Es ist vorzuziehen, daß der repräsentative Vektor vom Quantisierer 6 keine Redundanz enthält. Die Redundanz kann folglich verringert werden unter Verwendung einer gleichzeitigen Auftrittswahrscheinlichkeit zwischen den jeweiligen repräsentativen Vektoren.
  • Stochastischer Automat 7
  • Ein Koordinatensatz der Position vom Merkmal und dem Codewort des vom Quantisierer 6 gesendeten Ortsmusters wird an jede Zelle eines stochastischen Automaten 7 gesendet.
  • 7 zeigt ein Beispiel der Struktur des stochastischen Automaten 7. Unter Bezug auf 7 bedeutet Bezugszeichen 71 einen Musterautomaten, der gemäß geometrischer Eigenschaft angelieferter Bilddaten und der Zeitkorrelation gebildet ist. Bezugszeichen 72 bedeutet einen Symbolautomaten, der gemäß einem Ergebnis des vorstehenden Musternetzwerks als Reaktion auf ein anderes Eingangssignal gebildet ist, beispielsweise aus Kenntnisdaten, die von einem menschlichen Wesen unter Verwendung einer Tastatur geliefert werden, und vielleicht auch einem Sensorsignal oder dergleichen. Bezugszeichen 73 bedeutet eine Zelle mit Endzuständen. Eine Wahrscheinlichkeitsstruktur wird festgelegt bezüglich eines Satzes von Statuswerten. Ein Zustandssatz der r-ten Zelle, die zur (q)-ten Schicht gehört, wird geschrieben als Ωr (q), die Wahrscheinlichkeitsverteilung auf dem Satz wird geschrieben mit {p(ωu)}; ωu ∊ Ωr (q), ein Satz der Zustände von der v-ten Zelle, die zur (q + 1)-ten Schicht gehört und mit Ωv (q+1) geschrieben wird, die Wahrscheinlichkeitsverteilung bezüglich der Zelle wird mit {p(ωz)} geschrieben; ωz ∊ Ωv (q+1). Unter der Annahme, daß sich die Wahrscheinlichkeit auf eine andere bezieht, mit der folgenden Bedingungswahrscheinlichkeit:
    Figure 00180001
    wobei p (ωu) die Wahrscheinlichkeit aufzeigt, daß die r-te Zelle in der q-ten Schicht gleich ωu ist, und p(ωzu) die Wahrscheinlichkeit (Bedingungswahrscheinlichkeit) aufzeigt, daß die v-te Zelle in der (q + 1)-ten Schicht gleich ωz ist, wenn die v-te Zelle in der q-ten Schicht gleich ωq ist.
  • Zellen, die zum Musterautomaten 71 gehören, sind den zugehörigen Partialdomänen zugeordnet, wenn der Mehrfachauflösungsraum unterteilt wird. Der Statuswert der Zellengenauigkeit entspricht folglich dem Codewort in einer Partialdomäne im Mehrfachauflösungsraum. Die Zustandsübergangsmatrix mit den Bedingungswahrscheinlichkeiten als Elemente wird gleichzeitig mit dem Lernen vom Codebuch 64 vom Quantisierer 6 berechnet und erlernt.
  • Zellen, die zum Symbolautomaten 72 gehören, entsprechen andererseits genau den Objekten oder Ereignissen. Die Bedingungswahrscheinlichkeit zwischen vorstehenden Elementen kann gegeben sein von einem Informatiker oder kann errechnet werden gemäß der zeitlichen und räumlichen Korrelation der angelieferten Bilddaten.
  • Ein Beispiel einer Dreiniveauhierarchie, die ausgedrückt ist für einen Fall, bei dem die Mehrfachauflösungsdarstellung vom Transformationscodierer 5 nicht erfolgt, ist in 8 gezeigt.
  • Der Bestätigungsraum im vorstehenden Niveau ist gebildet durch die Ortsanordnung des (3 × 3)-Konfigurationsraums im Niveau, das um eins unter dem vorstehenden Koordinatenraum liegt. Das heißt, Ω(0)wird als Satz von Mustern eingesetzt, die durch Pixelanordnungen mit Realzahlwerten in der Form von (3 × 3) gebildet sind, und Ω(1) ist ein Mustersatz, der durch Anordnen von Codeworten für die Muster gebildet ist, die zu Ω(0) gehören, in die Form von (3 × 3). Wenn die Bedingungswahrscheinlichkeit zwischen den Schichten als Modell existiert und eine vorherige Wahrscheinlichkeit in Hinsicht auf 18 Muster zu Ω(0) gehört, angegeben ist, kann die Wahrscheinlichkeitsverteilung der Muster, die zu Ω(1) und Ω(2) gehören, nacheinander errechnet werden.
  • Angemerkt sei, daß der stochastische Automat 7 nach dem ersten Ausführungsbeispiel ein neuronales Netzwerk 207 des Hopfield Typs ist, gemäß einem ersten Ausführungsbeispiel und auch gemeinsam als Wissenserfassungseinheit bezeichnet wird.
  • Eingangsparametersteuerung 8
  • Die Eingangsparametersteuerung 8 ist eine Komponente, die solchermaßen gemäß den Koordinaten des Merkmals eingerichtet ist, das vom Merkmalsausleser 4 geliefert wird, und der Musterwahrscheinlichkeitsverteilung, die vom stochastischen Automaten 7 kommt, gesendet zu einer weitwinkellinseneingangseinheit, wobei Eingangsparametersteuersignale beispielsweise die Richtung der optischen Achse des Objektivs und des Zoomens darstellen. Hinsichtlich der Richtung der optischen Achse führt die Eingangsparametersteuerung beispielsweise den folgenden Prozeß aus.
  • Ein optisches Achsensteuerverfahren hängt ab von der Auswahl eines Merkmals im Satz der Merkmale, erfaßt vom Merkmalsausleser 4. Das Auswahlbewertungskriterium wird durch folgende Gleichung festgelegt: Lbr = L(wbr, T(br, Ωv (q+1)), ρ(br)) (23)
  • Wobei wbr ein Ausgangswert aus dem normierten 2D-Filter 3 beim Merkmalspunkt br ist, der zweite Ausdruck auf der rechten Seite die Menge wechselseitiger Information eines Merkmalspunktes br in Hinsicht auf Ωv (q+i) ist und ρ(br) die Entfernung von der vorliegenden optischen Achse zu br ist. Das einfachste Beispiel von Lbr wird angesehen als Linearkombination der jeweiligen Variablen. Lbr = α0wbr + α1T(br, Ωv (q-1)) + α2ρ(br) (24)
  • Anfänglich wird die Wechselinformationswahrscheinlichkeit T(Ωr (q), Ωv (q+1)) von Ωr (q) in Hinsicht auf Ωv (q+1) durch folgende Gleichung (25) festgelegt. Gleichung (25) wird verwendet zur Berechnung von T(br, Ωv (q+1) = T(Ωr (0), Ωv (q+1).
  • Figure 00200001
  • Der Abwandlungsumfang der optischen Achse ist so bestimmt, daß die optische Achse immer mit den Ortskoordinaten übereinstimmt, die die Gleichung (23) oder (24) abgibt, um das Maximum zu bekommen. Jede Zelle des Musterautomaten 71 hat sowohl aktuelle Ortskoordinaten als auch die Maßstabskoordinaten. Indem die optische Achse in Übereinstimmung mit der Betrachtungsposition gebracht wird, bei der die Wechselinformationsmenge maximal ist, ist folglich dasselbe wie die Feststellung einer Zelle mit maximaler wechselseitiger Informationsmenge. Jede Zelle speichert das Codewort und die zugehörige Auftrittswahrscheinlichkeit. Die Zellen sind miteinander durch Zusatzwahrscheinlichkeit verbunden. Eine höchst effektive Zelle, das heißt, die Zelle mit der maximalen wechselseitigen Informationsmenge läßt sich bestimmen unter Verwendung der vorherigen Faktoren zum Bestimmen des Zustands einer Zelle mit einer gewissen Eigenschaft (die Bestimmung ist dieselbe wie beim Verringern der Entropie der Auftrittswahrscheinlichkeit von Codewörtern der speziellen Zelle). Die Zelle wird bestimmt durch Ausführen von Berechnungen unter Verwendung der Gleichungen (23) bis (25).
  • Angemerkt sei, daß die vorstehenden Gleichungen (23) bis (25) durch Bewertungswerte zur Zoomsteuerung gemacht werden können, wenn die Gleichungen auf den Mehrfachauflösungsraum oder dessen Ortsmuster angewandt werden. Die Berechnungen und Bewertungen der Bewertungswerte sind nicht beschränkt auf die Gleichungen (23) bis (25)
  • Spezielles Beispiel vom Ausführungsbeispiel
  • Nachstehend beschrieben ist ein Beispiel, bei dem die Theorie auf ein simples Beispiel angewandt wird. Zum Vereinfachen der Beschreibung wird nun ein Beispiel beschrieben, bei dem eine (3 × 3)-Gliederung Matrixsensor verwendet wird, und die Mehrfachauflösungsdarstellung der Operationen der Weitwinkellinse und die Transformationscodierung wird nicht ausgeführt. Es kann berücksichtigt werden, daß der erste Ausdruck der Gleichung (24) der Änderungsumfang (schwarz(weiß) von Pixeldaten ist.
  • Es wird die Annahme gemacht, daß die Eingangseinheit in der Lage ist, einen Bereich von (3 × 3) Pixeln gleichzeitig zu erkennen und ein Modell hat, das in der in 8 gezeigten Weise als Kenntnis gebildet ist. Die Beschreibung gilt einem Falle, bei dem nur ein Musterautomat zum Erkennen eines 2D-Musters verwendet wird. Wie sich aus 8 ersehen läßt, wird die räumliche Unterstützung eines Musters vom Niveau (0) aus 3 × 3 Pixeln gebildet, die räumliche Stütze eines Musters vom Niveau (1) wird aus 9 × 9 Pixeln gebildet, und die räumliche Stütze eines Musters vom Niveau (2) wird aus 27 × 27 Pixeln gebildet. Das System ist folglich in der Lage, das Muster vom Niveau (0) durch Ausführen der Betrachtungsoperation zu erkennen. Numerische Zeichen, die im Muster des Niveaus (1) auftreten, und die Muster des Niveaus (2) sind jeweils Codewörter vom Niveau (0) beziehungsweise vom Niveau (1). Es wird angenommen, daß die Auftrittswahrscheinlichkeiten in Hinsicht auf das jeweilige Niveaumuster dieselben sind. Dann wird die Operation zum Erkennen des Musters vom Niveau (1) als Betrachtung von Niveau (1) geschrieben.
  • Unter der Annahme, daß das in 9 gezeigte Muster als Betrachtungsumgebung angegeben ist, wird nun die Ausgabe zum Erkennen des Musters vom Niveau (2) berücksichtigt. Unter Bezug auf 9 wird der obere linke Punkt als Ursprung (0, 0) geschrieben und zur i-ten rechten Position verschobenes Pixel und ein nach unten zur j-ten Position verschobenes Pixel als (i, j) dargestellt. Da das System nur die beiden Muster vom Niveau (2) kennt, ist es erforderlich, die Muster zu spezifizieren, bei denen die Muster des gegebenen Bildes enthalten sind.
  • 9 zeigt ein eingegebenes Bild, das an das Gerät dieses Ausführungsbeispiels geliefert wird, wobei das Bild in einer Form erzeugt wird, die die Gleichung (13) ausdrückt, nachdem die Verarbeitung im Transformationscodierer 5 und dem Quantisierer 6 erfolgt ist (angemerkt sei, daß die Redundantenabschnitte gelöscht sind).
  • Eine Zelle ganz oben im Musterautomaten 71, gezeigt in 7, hat einen Puffer zum Speichern der Auftrittswahrscheinlichkeit in Hinsicht auf die 18 Codewörter, die in Ω(0) gemäß 8 enthalten sind. Jede Zelle in der allerobersten Schicht vom Musterautomaten 71 nimmt eine Musteranpassung zwischen Teilbildern (Teilbilder des gelieferten Bildes, das das 3 × 3-Partialbild in diesem Ausführungsbeispiel ist) in einer Raumdomäne vor, die das Territorium dort ist, und 18 Ω(0) enthaltenen Ortsmustern gemäß 8, um so das entsprechende Codewort und dessen Auftrittswahrscheinlichkeit zu speichern. Wenn ein Teilbild entsprechend einer gewissen Zelle in der ersten Schicht nicht erzielt wird, ordnet die Zelle in der ersten Schicht dieselbe Auftrittswahrscheinlichkeit "1/18" allen Codewörtern zu. wenn das Teilbild als Lokalmuster "1" oder "2" erfaßt ist, wird "1/2" als Auftrittswahrscheinlichkeit eines jeden Codewortes 1 und Codewortes 2 gespeichert und "0" als Auftrittswahrscheinlichkeit für alle anderen Codewörter.
  • Jede Zelle des Musterautomaten 71 speichert Codewörter entsprechend den vier Mustern, die in Ω(1) gemäß 8 enthalten sind, sowie deren Auftrittswahrscheinlichkeiten. Angemerkt sei, daß das "Muster" eine räumliche Anordnung des Codewortes von der Zelle der ersten Schicht ist. Das heißt, die lokalen Anordnungen der Codewörter von der Zelle in der ersten Schicht sind dargestellt durch numerische Zeichen "1" bis "4". Die Bestimmung der Anordnung vom Codewort der ersten Schicht im Teilraum, welches das Territorium der Zelle in der zweiten Schicht ist, wird unter "1" bis "4" unter Verwendung von Gleichung (22) berechnet. Angemerkt sei, daß 3 × 3 Muster dem Multiplexverfahren unterzogen sind, wie in Gleichung (22) ausgedrückt. Auch die Zellen in der dritten Schicht werden der Berechnung unterzogen, um die Auftrittswahrscheinlichkeiten in Hinsicht auf die beiden Codewörter unter Verwendung von Gleichung (22) zu erhalten.
  • Es wird angenommen, daß das Anfangsniveau (0) der Betrachtung bei der Position durchgeführt wurde, bei der die Koordinaten (10, 10) sind; die nachfolgenden Prozesse werden nacheinander beschrieben. Die Koordinaten (10, 10) können angesehen werden als vom Merkmalsausleser erfaßt.
  • Schritt S1
  • Die Information, die durch Betrachtung im Niveau (0) von den Koordinaten (10, 10) erzielt wird, zeigt auf, daß das Muster vom Niveau (0) gleich "18" ist. Eine Tatsache, daß der Betrag der vorstehenden Information 0 ist, ist somit leicht verständlich.
  • Um die Position zu machen, die das System beobachtet, und die relative Position des Musters vom Niveau (2) zur gegenseitigen Entsprechung muß das System das Muster vom Niveau (1) nahe dem gegenwärtigen Betrachtungspunkt spezifizieren.
  • Um die Betrachtung vom Niveau (1) abzuschließen, muß die Entropie bei Ω(1) minimiert werden. Das heißt, ein Beobachtungspunkt (i, j) , der in der Lage ist, T(Ω(i j) (0), Ω(10,10) (1) zu minimieren, wird ausgewählt. Als Kandidaten des Beobachtungspunktes werden folgende vier Punkte ausgewählt: {(16, 10), (13, 13), (10, 16) und (16, 16)}. Der erwartete Wert der Informationsmenge, wenn jeder Punkt betrachtet ist, ist folgender: T (Ω(16, 10) (0), Ω(10, 10) (i)) = 0,219, T (Ω(13, 13)(0), Ω(10, 10) (i)) = 0,354, T (Ω(10, 16)(0), Ω(10, 10) (i)) = 0,219, T (Ω(16, 16)(0), Ω(10, 10) (i)) = 0,354 (26)
  • Wenn ein Betrachtungspunkt, von dem die Entfernung kurz ist, aus den vorstehenden Koordinaten ausgewählt wird, erfolgt die Auswahl (13, 13) als nächster Beobachtungspunkt. Die Bedingungen über die Entfernung sind nicht hierauf beschränkt.
  • Schritt S2
  • Die Niveau-(0)-Betrachtung bei den Koordinaten (13, 13) erfolgt. Im Ergebnis wird Niveau-(0)-Muster "14" gewonnen. In diesem Zustand kann das Niveau-(1)-Muster bezüglich der Koordinaten (13, 13) nicht spezifiziert werden. Folglich wird die Niveau-(0)-Beobachtung der Koordinaten (16, 16) ebenso wie in Schritt S1 ausgeführt. Im Ergebnis wird das Niveau-(0)-Muster "10" gewonnen, so daß das Niveau-(1)-Muster bei den Koordinaten (13, 13) mit "1" spezifiziert wird. Die Informationsmenge bei jedem Punkt im Niveau (2) wird berechnet. Die Koordinate des Betrachtungspunktes ist ein Punkt im Niveau (1), die Koordinaten sind (22, 22). Das heißt, ob das Niveau-(1)-Muster bei den Koordinaten (22, 22), gleich "2" oder "3" ist, wird spezifiziert. Die erwarteten Werte der Informationsmenge, wenn die Kandidatenpunkte des Betrachtungspunktes vom Niveau (0) folgende sind: T (Ω(19, 19) (1), Ω(16, 16) (2)) = 0,171, T (Ω(25, 19) (1), Ω(16, 16) (2)) = 0,171, T (Ω(22, 22) (1), Ω(16, 16) (2)) = 0,585, T (Ω(19, 25) (1), Ω(16, 16) (2)) = 0,171, T (Ω(25, 25) (1), Ω(16, 16) (2)) = 0,585.
  • Als nächster Betrachtungspunkt wird ein Punkt (22, 22) ausgewählt, weil die Entfernung kurz ist.
  • Schritt S3
  • Als Ergebnis der Betrachtung bei Niveau (0) zu den Koordinaten (22, 22) kann das Muster "17" vom Niveau (0) erzielt werden. Ob das Niveau-(1)-Muster gleich "3" oder gleich "4" ist, kann somit erfaßt werden. Eine Tatsache, daß das gegebene Eingangssignal im Ergebnis gleich "2" vom Niveau-(2)-Muster ist, läßt sich erkennen.
  • Obwohl das vorstehende Ausführungsbeispiel nicht als Mehrfachauflösungsraum angesehen wird und dessen Ortsmuster zur Vereinfachung der Beschreibung dient, kann ein gleicher Prozeß mit Komplexität im Prozeß ausgeführt werden, selbst wenn der Mehrfachauflösungsraum und das Ortsmuster berücksichtigt werden. Wenn der Mehrfachauflösungsraum und das Lokalmuster berücksichtigt werden, kann eine Zoomsteuerung und dergleichen erfolgen, sowie die Steuerung der optischen Achse.
  • Zweites Ausführungsbeispiel
  • Ein zweites Ausführungsbeispiel hat eine Struktur wie diejenige des stochastischen Automaten 7 nach dem ersten Ausführungsbeispiel, realisiert durch ein Netzwerk der Hopfield-Art. Im Ergebnis wird der in einer Eingangsparametersteuerung 208 durchgeführte Prozeß verändert.
  • 10 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Verarbeitungsgerätes für visuelle Information nach diesem Ausführungsbeispiel zeigt. Ein Linsensystem 201, ein Matrixsensor 202, ein 2D-Filter 203, ein Merkmalsausleser 204 und ein Transformierungscodierer 205 sind jeweils dieselben wie das Linsensystem 1, der Matrixsensor 2, das 2D-Filter 3, der Merkmalsausleser 4 und der Transformationscodierer 5 nach dem ersten Ausführungsbeispiel.
  • Quantisierer 206
  • 11 zeigt die Struktur eines Quantisierers 206. Der Quantisierer 206 hat einen Lernmodus zum Erfassen repräsentativer Vektoren und einen Ausführungsmodus zum Codieren des angelieferten Signals. Die repräsentativen Vektoren werden im Lernmodus nach einem Verfahren unter Verwendung einer Korrelationsmatrix oder eines Verfahrens unter Verwendung eines Lernvektorquantisierers erfaßt, vorgeschlagen von Kohonen. Nachstehend beschrieben ist ein Verfahren, bei dem der Lernvektorquantisierer, den Kohonen vorgeschlagen hat, zum Bilden eines Quantisierers verwendet, der eine Tiefe m hat.
    • (a) Gewichtungsvektoren Wn m werden aufbereitet von der Zahl entsprechend der Anzahl der repräsentativen Vektoren; und die Gewichtungsvektoren werden von einer kleinen Zufallszahl initialisiert.
    • (b) Verarbeitungselemente PEn m zum Senden des Skalarproduktes vom Lokalmuster Xm und Wn m werden von der Zahl vorbereitet, die dieselbe ist wie beim Gewichtungsvektor Wn m. Eine 2D-Entfernung ist zwischen den Verarbeitungselementen eingeführt worden, und ein Nahfeldradius R des Verarbeitungselements wird passend eingesetzt.
    • (c) PEn m MAX ZUR Ausgabe eines Maximalwertes in Hinsicht auf ein geliefertes Ortsmuster Xm wird erfaßt, und dann wird der Gewichtungsvektor Wn m in Hinsicht auf PE, der Abstand von PEnmMAX kürzer als R ist, gemäß folgender Gleichung abgeawndelt: Wn m ← Wn m + ηw (Xm – Wn m MAX)wobei ηw eine beliebige Konstante ist. Ein Gewichtungsvektor wird abgewandelt, der Nahfeldradius R von PE wird allmählich abgesenkt.
  • Das Ortsmuster mit der hohen Auftrittswahrscheinlichkeit ist, wie der Gewichtungsvektor, im Lernvektorquantisierer gespeichert. Das Codieren vom Ortsmuster wird als Index von PE angegeben, der den Maximalwert abgibt.
  • Im Ausführmodus des Quantisierers 206 wird der Merkmalsvektor nahe dem Merkmal an den zuvor genannten Lernvektorquantisierer geliefert, um den Index des Verarbeitungselements unter {PEn m}n, zu erstellen, der einen Maximalwert als Codewort abgibt. Im Ergebnis des vorstehenden Prozesses wird ein passender Satz Codewörter entsprechend aller Merkmale erstellt.
  • Das solchermaßen angegebene Bild wird codiert als Koordinatensatz der Position vom Merkmal und dem Codewort des Ortsmusters. Die vorstehende Codierung enthält jedoch eine bemerkenswerte Resonanz in dem Sinne, daß eine dichte Korrelation zwischen den Ortsmustern besteht, die räumlich benachbart sind. Es ist vorzuziehen, daß der repräsentative Vektor des Quantisierers 206 nicht die vorstehende Resonanz enthält. Die vorstehende Resonanz kann verringert werden unter Verwendung der gleichzeitigen Auftrittswahrscheinlichkeit zwischen den repräsentativen Vektoren.
  • Neuronales Netzwerk 207 vom Hopfield-Typ
  • 12 zeigt die Struktur eines neuronalen Netzwerks 207 der Hopfield-Art. Unter Bezug auf 12 ist ein Musternetzwerk 121 ein gemäß geometrischer Eigenschaften und der Zeitkorrelation der gelieferten Bilddaten aufgebaut. Ein Konzeptnetzwerk 122 ist ein solches, das aus dem Ergebnis des Musternetzwerks und eines anderen Eingangssignals gebildet ist, und zwar als Beispiel, aus Kenntnisdaten aus den menschlichen Wesen unter Verwendung beispielsweise einer Tastatur, einem anderen Sensorsignal oder dergleichen.
  • Ein Neuron 123 ist ein Verarbeitungselement einer multiplen Einausgabe. Eingangsvektor x und Ausgangswert y werden in folgender Beziehung unter Verwendung des Gewichtungsvektors w kombiniert: Y = sgm (WT x) (28)wobei sgm (·) eine Sigmoidalfunktion ist. Der Ausgangswert des Neurons bedeutet die Auftrittswahrscheinlichkeit eines Musters gemäß dem Neuronen oder dem Konzept.
  • Bezugszeichen 124 bedeutet eine Neuronengruppe in der Form eines Neuronensatzes, die untereinander in Konkurrenz treten. Bezugszeichen 125 stellt ein Gewicht Wj,k dar, das Neuron j und Neuron k verbindet. Die Neuronengruppe ist in der Form hierarchischer Struktur, und eine Vielzahl von Blöcken sind in jeder Hierarchie gebildet. Eine Neuronengruppe in Block r in der Schicht (q) wird geschrieben als Ω(q):r, und Neuronengruppe in Block v in Schicht (q+1) wird geschrieben als Ω(q+1):r, und Neuronengruppe in Block v in Schicht (q+1) wird als Ω(q+1):r geschrieben. Die Neuronengruppe, die zum Musternetzwerk 121 gehört, drückt einen Ortsmusterraum des Mehrfachauflösungsraums bei den Koordinaten aus. Als Anfangszustand des Musternetzwerks 121 werden Daten aus dem Quantisierer 206 eingesetzt.
  • Die Arbeitsweise vom neuronalen Netzwerk 207 der Hopfield-Art mit der zuvor genannten Struktur wird durch eine Energiefunktion gesteuert, die durch die nachstehende Gleichung festgelegt ist. Das heißt, unter der Annahme, daß der Ausgangswert aus den zu einem jeden Block gehörenden Neuron gleich Vm ∊ Ω(q):r ist, Vn ∊ Ω(q+1):r wird folgendermaßen festgelegt:
    Figure 00290001
  • Da die Gewichtung des Musternetzwerks 121 der Gewichtung für die Verwendung im Lernvektorquantisierer entspricht, kann der Wert der Gewichtung zur Verwendung bei der Lernvektorquantisierung verwendet werden. Jedoch kann die Gewichtung durch das folgende Verfahren erfaßt werden.
  • Die Gewichtungen für das Musternetzwerk 121 und das Konzeptnetzwerk 122 können folgendermaßen erfaßt werden. Unter Berücksichtigung der Gleichung (29) als Lernpotentialfunktion ist der Abwandlungsumfang der Gewichtung folgender:
    Figure 00290002
  • Eingangsparametersteuerung 208
  • Die im ersten Ausführungsbeispiel beschriebene wechselseitige Informationsmenge wird in Übereinstimmung gebracht mit dem neuronalen Netzwerk der Hopfield-Art und folgendermaßen berechnet:
    • (a) Entropie ε(q):r (q+1):v über den Satz Wm n von Verbindungen, die den Satz vm ∊ Ω(q):r von Neuronen im Block v der Schicht (q + 1) des neuronalen Netzwerk der Hopfield-Art und des Satzes vn ∊ Ω(q+1):v von Neuronen in Block v in Schicht (q + 1) wird nach folgender Gleichung berechnet:
      Figure 00300001
      Da
      Figure 00300002
      ein nach dem Lernverfahren zu berechnender Wert ist, kann er verwendet werden als bekannter Wert im Verfahren des Berechnens vom Eingangsparameter.
    • (b) Entropie ε(q):r in Hinsicht auf den Satz vm ∊ Ω(q):r der Neutronen im Block r der Schicht (q) des neuronalen Netzwerks der Hopfield-Art wird nach folgender Gleichung berechnet:
      Figure 00300003
    • (c) Unter Verwendung von ε(q):r (q+1):v und ε(q):r kann ein Wert erzielt werden, der aus Gleichung (25) kommt, und zwar folgendermaßen: T (ε(q).T+1, p(ω; AT (q+1))) = –ε(q):r (q+1):v + ε(q):r (33)
  • Drittes Ausführungsbeispiel
  • Das dritte Ausführungsbeispiel hat eine Struktur, bei der das Verarbeitungsgerät für visuelle Information bei einem Überwachungsgerät verwendet wird.
  • 13 ist ein Blockdiagramm, das die Struktur des Überwachungsgerätes nach diesem Ausführungsbeispiel zeigt. Das Linsensystem 301, der Matrixsensor 302 und das 2D-Filter 303 gleichen dem Linsensystem 1, dem Matrixsensor 2 und dem 2D-Filter 3 nach dem ersten Ausführungsbeispiel.
  • Merkmalsausleser 304
  • Der Merkmalsausleser 304 erfaßt den Extremwert der Änderung von den Bilddaten sowie dem Merkmal über die räumliche Anordnung, die das 2D-Filter 303 erfaßt. Das Überwachungsgerät befindet sich an einer Stelle, wie in einem Laden oder einem Büro, in dem ein Bewegungsgegenstand im wesentlichen nicht vorhanden ist. Wenn kein Unfall stattfindet, werden Bilddaten nicht geändert. Eine Stelle, an der sich die Bilddaten geändert haben, wird folglich detailliert zu beobachten sein. Im Ergebnis wird die zeitüberwachte Information zum Aufzeichnen in signifikanter Weise verlängert.
  • Änderungen im Zeitverlauf sind in Hinsicht auf das Vorstehende ein bedeutsames Charakteristikum. Um einen bewegten Gegenstand aufzunehmen, ist es vorzuziehen, daß die Zeitverzögerung der Rückkopplungssteuerung minimiert wird. Der Merkmalsausleser 304 hat eine andere Funktion zum Berechnen des optischen Achsensteuerumfangs, mit dem die optische Achse veranlaßt wird, die erfaßte Position des Merkmals zu avisieren, um so den vorigen Umfang zur Eingangsparametersteuerung 308 zu senden. Die vorstehende Funktion ermöglicht es, ein Bild eines sich bewegenden Objekts auf dem Sensor als Stehbild zu verarbeiten.
  • Transformationscodierer 305
  • Der Transformationscodierer 305 codiert Bilddaten eines aufgenommenen bewegten Gegenstands. Codierte Daten werden durch eine Übertragungsleitung oder eine Busleitung in einer externen Speichereinheit 309 gespeichert.
  • Quantisierer 306
  • Codierte Daten eines aufgenommenen Gegenstands werden unmittelbar einem passenden Codewort zugeordnet. Wenn es Gegenstände der vorstehenden Art gibt, die auf dem Bild erscheinen, werden die Gegenstände als ihre Positionen und mit einem entsprechenden Codewort ausgedrückt.
  • Stochastischer Automat 307
  • Codierte Daten des aufgenommenen Gegenstands werden unmittelbar einer Statusübergangswahrscheinlichkeitsmatrix des stochastischen Automaten 307 wiedergegeben. Durch Wissen der Intensität einer gewissen beschränkten Frequenzzone kann ein Gegenstand abgeschätzt werden, der in der Frequenzintensitätsfunktion enthalten ist. Die Position eines Gegenstands, der aufgenommen worden ist, kann im Ergebnis ohne hohe Auflösungsdaten erfaßt werden, die durch Veranlassen der optischen Achse gewonnen werden, die mit dem Gegenstand in Übereinstimmung gebracht wird. Beobachtbar ist ein beliebiger Abschnitt der Weitwinkellinse. Das heißt, die Steuerung der optischen Achse ist nicht erforderlich. Selbst wenn eine Vielzahl von Gegenständen in der Überwachungszone auftreten, ist es notwendig, diese zeitsequentiell zu beobachten.
  • Eingangsparametersteuerung 308
  • Als Kriterium zur Auswahl eines Merkmals werden ein Ausgangswert aus dem 2D-Filter über das Merkmal, der Änderungsumfang und die lineare Kombination der wechselseitigen Informationsmenge im Verlauf der Zeit verwendet.
  • Ein Standard, der in dieser Weise gebildet wird, daß ein Gegenstand beim Auftreten beobachtet wird hinsichtlich eines bewegten Gegenstands bei der Mitte der optischen Achse, und der Gegenstand nicht in der Mitte der optischen Achse danach beobachtet wird, ermöglicht ein effektiveres Beobachtungsgerät zu realisieren.
  • Externe Speichereinheit 309
  • Die externe Speichereinheit 309 speichert eine Vielzahl von Datenpunkten. Das Überwachungsgerät speichert anfänglich Bilddaten in einem Normalzustand. Dann speichert es nur Abschnitte, die sich im Verlauf der Zeit ändern. Zu speichernde Daten sind codierte Daten des aufgenommenen Gegenstands, Zeit der Aufnahme und Änderung der Position (das heißt, des Ortes) im Verlauf der Zeit. Als Ergebnis der obigen Speicherungsarten kann die zu speichernde Datenmenge in signifikanter Weise verringert werden, und folglich kann das Bild lange Zeit aufgenommen werden.
  • Betriebsbeispiel vom Überwachungsgerät
  • Ein aktueller Betrieb des Überwachungsgerätes mit der vorstehenden Struktur ist nachstehend anhand eines in 14 dargestellten Ablaufdiagramms beschrieben.
  • In Schritt 511 wird ein Anfangsbild einer Stelle, auf die das Überwachungsgerät positioniert ist, in der externen Speichereinheit 309 gespeichert.
  • In Schritt S12 wird das Merkmal unter Verwendung der Gleichung (24) bewertet. Aus Gleichung (27) geht hervor, daß ein Merkmal des Entwicklungswertes vergrößert ist und kennzeichnet, daß der Änderungsumfang des Pixelwertes eine naher Abschnitt des Merkmals ist, der zur Zeit des Durchgangs groß ist, oder eine große Informationsmenge kann aus dem Merkmal gewonnen werden. Selbst wenn eine Vielzahl von Merkmalen mit denselben Bewertungen über die vorstehenden beiden Punkte vorhanden ist, wird Gleichung (24) zur Auswahl eines Merkmals genommen, der der optischen Achse am nächsten liegt.
  • Wenn Merkmale einer Art mit einer Bewertung vorhanden ist, die höher ist als ein gewisser Schwellwert α, dann schreitet in Schritt S13 die Arbeit fort zu Schritt 516.
  • Wenn die zeitweiligen Unterschiede der Signale bei allen Merkmalspunkten in Schritt S14 kleiner sind als ein gewisser Schwellwert β, dann kehrt die Verarbeitung zu Schritt S12 zurück.
  • In Schritt S15 werden Merkmale der Art, bei denen die zeitliche Differenz größer als ein gewisser Wert β ist, folgender Verarbeitung unterzogen: gemäß dem Codewortvektor (unvollständiges Codewort möglich) gemäß dem vorstehenden Merkmal, eine vollständige Beschreibung über den später zu beschreibenden Gegenstand verwendet zum Identifizieren des Gegenstands, der an der Stelle vorhanden ist. Dann werden gegenwärtig die Koordinaten des Merkmals und die Anzahl gemäß dem Gegenstand zu einem Satz gebildet, und dann wird der Satz in der externen Speichereinheit 309 gespeichert. Danach kehrt die Operation zu Schritt S12 zurück.
  • In Schritt S16 wird die optische Achse veranlaßt, mit dem ausgewählten Merkmal übereinstimmen.
  • In Schritt S17 wird die vollständige Beschreibung (der Codewortsatz) vom nahe dem Merkmalspunkt befindlichen Gegenstand hereingenommen, und die geeignete Zahl wird dem Gegenstand zugeordnet. Die dem Gegenstand zugeordnete Zahl, der Codewortsatz, die Zeit und die Koordinaten vom Merkmalspunkt werden in einen Satz gebildet, der dann in der externen Speichereinheit 309 gespeichert wird. Danach kehrt der Ablauf zurück zu Schritt 512.
  • Das Fortschreiten des Ablaufs zu Schritt S15 entspricht einem Fall, bei dem gemessene Daten eines Abschnitts nahe dem Merkmalpunkt abgeschätzt werden können als Daten, die zuvor beobachtet und in Einzelheiten mit hinreichender Zuverlässigkeit gespeichert wurden, gemäß den Meßdaten des Abschnitts nahe vom Merkmalspunkt. Das Überwachungsgerät nach diesem Ausführungsbeispiel ist eingerichtet, die Verarbeitungen so auszuführen, daß eine detaillierte Beobachtung nur dann erfolgt, wenn eine Person in den Speicher eingibt (Schritte S16 und S17); und dann speichert das Überwachungsgerät nur die Positionsinformation der Person (S15).
  • Unter Verwendung eines Überwachungsgerätes der vorstehenden Art ermöglicht eine Speichereinheit mit einer beträchtlich geringeren Kapazität als eine solche, die erforderlich ist zum Speichern zeitvariabler Bilder, das Überwachen, das für lange Zeit ausgeführt werden kann. In einem Fall, bei dem ein Bild 260 kBytes (512 Pixel × 512 Pixel, eines von jedem hat 1 Byte) hat, erfordert das Speichern von 108.000 sequentieller Bilder 28 GBytes (1 Stunde wegen 30 Bildern pro Sekunde). Wenn gemäß diesem Ausführungsbeispiel 100 Bewegungsgegenstände (Kunden im Falle eines Geschäftsinneren) immer vorhanden sind und eine Kapazität eines Bildschirms (260 kBytes) erforderlich ist zur vollständigen Beschreibung eines jeden Gegenstands, ist eine Kapazität erforderlich zum Speichern des Bildes für eine Stunde, die auf 28 MBytes reduziert werden kann, welches die Summe von 0,26 MBytes ist, die zum Speichern eines Anfangsbildes erforderlich ist, 26 MBytes zum Beschreiben der Gegenstände, 1.729 MBytes zum Speichern der Orte (im Falle, bei dem die Position eines Merkmals durch 2D Koordinaten mit doppelter Genauigkeit beschrieben wird). Aktuell ist eine Situation gegeben, in der 100 Personen immer im Laden sind, die nicht leicht zu berücksichtigen ist. Die erforderliche Kapazität zum Beschreiben der Objekte ist darüber hinaus kleiner als die erforderliche Kapazität zum Speichern des gesamten Bildes. Wenn die im Laden vorhandenen Objekte um 10 abgesenkt werden, ist die zum Speichern der Bilder für eine Stunde signifikant auf 3 MBytes reduzierbar.
  • Viertes Ausführungsbeispiel
  • Im vierten Ausführungsbeispiel ist der Quantisierer 6 nach dem ersten Ausführungsbeispiel realisiert durch einen Ortsvektorlernquantisierer und der stochastische Automat 7 durch eine neurale Netzwerkgruppe der symmetrisch verbundenen Art. Darüber hinaus vorgesehen ist ein Signaleingabeabschnitt zum Eingeben eines Signals von außen und ein Signalausgabeabschnitt zum Senden eines Signals nach außen. Im Ergebnis wird ein Vorgang, der durch die Parametersteuerung auszuführen ist, verändert.
  • 15 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Verarbeitungsgerätes der visuellen Information nach diesem Ausführungsbeispiel zeigt. Eine Bildeingabeeinheit 401 ist ausgestattet mit einem Linsensystem und mit einem Matrixsensor, ähnlich wie beim Linsensystem 1 und dem Matrixsensor 2 im ersten Ausführungsbeispiel. Ein 2D-Filter 403, ein Merkmalsausleser 404 und ein Transformiercodierer 405 gleichen dem 2D-Filter 3, dem Merkmalsausleser 4 und dem Transformiercodierer 5 im ersten Ausführungsbeispiel.
  • Quantisierer 406
  • 16 zeigt die Struktur eines Lernortsvektorquantisierers (LLVQ), der als Quantisierer 406 dient. Der LLVQ hat einen Lernmodus zum Erfassen eines repräsentativen Vektors und eines Ausführmodus zum Codieren des Eingangssignals. Der repräsentative Vektor wird erfaßt im Lernmodus durch ein Verfahren unter Verwendung einer Korrelationsmatrix oder eines Verfahrens unter Verwendung eines Lernvektorquantisierers, der von Kohonen vorgeschlagen wurde. Nachstehend beschrieben ist ein Lernvektorquantisierer, den Kohonen vorgeschlagen hat, um einen Quantisierer mit einer Tiefe m zu bilden.
    • (a) Gewichtungsspeicher 162 sind zuvor aufbereitet durch eine vorbestimmte Anzahl zum Speichern eines repräsentativen Vektors Wn, der zu einer gewissen Kategorie n gehört. 16 zeigt einen Fall, bei dem die Anzahl repräsentativer Vektoren 2 beträgt.
    • (b) Ein Gewichtungsaktualisierer 163 ist vorgesehen für jeden Gewichtungsspeicher 162 und eingerichtet zum Aktualisieren des Wertes der Gewichtung, die im Gewichtungsspeicher 162 gemäß nachstehender Gleichung (34) gespeichert ist, nur wenn das vom Binärumsetzer 164 gesendete Signal "1" ist: Wn m ← Wn m + ηw (Wn m – Xm) (34)
    • (c) Ein Innenproduktrechner 161 berechnet das Skalarprodukt vom Eingangssignal X mit Wn zum Senden des Ergebnisses der Rechnung an einen Binärumsetzer 164.
    • (d) Der Binärumsetzer 164 empfängt Ausgangssignale aus der Vielzahl von Innenproduktrechnern 161 zum Umsetzen des Ausgangswertes, der den Maximalwert in "1" darstellt, und andere Ausgangswerte in "0". Signale (Binärsignale), die die umgesetzten Werte darstellen, werden jeweils an den Gewichtungsaktualisator 163 gesandt. Ein Binärsignalsatz wird an eine Neuronalnetzwerkgruppe der symmetrisch verbundenen Gruppe 406 der symmetrisch verbunden Art gesandt.
  • Das solchermaßen gelieferte Bild wird als Koordinatensatz der Position des Merkmals und des Codewortes vom Lokalmuster codiert. Die vorstehende Codierung enthält jedoch eine beträchtliche Redundanz in dem Sinne, daß eine starke Korrelation zwischen den Ortsmustern besteht, die räumlich benachbart sind. Vorzuziehen ist es, daß der Repräsentativvektor des Quantisierers 405 keine Redundanz enthält. Die vorstehende Redundanz läßt sich verringern unter Verwendung einer gleichzeitigen Auftrittswahrscheinlichkeit zwischen jeweiligen Repräsentativvektoren.
  • Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art
  • 17 zeigt die Struktur einer Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art. Die Neuronalnetzwerkgruppe 406 der symmetrisch verbundenen Art enthält eine Vielzahl neuronaler Netzwerke der symmetrisch verbundenen Art. Jedes Neuronalnetzwerk der symmetrisch verbundenen Art empfängt ein Signal aus einem anderen Neuronalnetzwerk der symmetrisch verbundenen Art, aus dem Transformiercodierer 405 oder einem Signaleingabeabschnitt 408 zum Senden eines Ergebnisses des Prozesses vom Eingangssignal an ein anderes Neuronalnetzwerk der symmetrisch verbundenen Art, eine Eingabeparametersteuerung 407 oder eine Signalausgabeeinheit 409.
  • 18 zeigt die Struktur eines Neuronalnetzwerks der symmetrisch verbundenen Art. Unter Bezug auf 18 hat der Neuronalnetzwerkzustandsaktualisator 171 der symmetrisch verbundenen Art eine Struktur, die über Mehrfacheingänge verfügt und einen Ausgang, und sie verwendet eine nichtlineare Ein-/Ausgabefunktion, die realisiert wird durch symmetrisch verbundene Neuronen, die jeweils eine Sigmoid-Funktion untereinander durch Gewichtungen haben. Dann bilden Neuronen wenigstens zwei Blöcke, von denen einer ein Ausgabeblock ist, alle anderen Blöcke sind Eingangsblöcke. Der Eingangswertesatz aus dem Neuron im Ausgabeblock ist in ein Ausgangssignal (Vektor) gebildet. Neuronen, die zum Eingangsblock gehören, empfangen Signale aus einem anderen neuronalen Netzwerk der symmetrisch verbundenen Art, dem Quantisierer 405 oder der Signaleingabeeinheit 408.
  • Die Bewegung des Neuronalnetzwerks 207 mit der vorstehenden Struktur wird gesteuert durch eine Energiefunktion, die durch folgende Gleichung festgelegt ist. Das heißt, wenn der Ausgangswert des Neurons, der zum Ausgabeblock gehört, Vn ist, wird der Ausgangswert eines Neurons, das zu einem beliebigen Eingabeblock gehört, Vm, und der Eingabewert ist Im, und die Gewichtung zwischen den Neuronen ist Wm,n, die Energiefunktion H läßt sich festlegen mit der folgenden Gleichung (35):
    Figure 00380001
  • Der Gewichtungsaktualisator 172 aktualisiert das Gewicht des Neurons gemäß der Gewichtungsaktualisierungsregel, die beispielsweise ausgedrückt wird durch folgende Gleichung (30):
    Figure 00380002
  • Der Gewichtungsspeicher 173 speichert das vom Gewichtungsaktualisierer 172 aktualisierte Gewicht.
  • Ein erster Informationsmengenrechner 174 berechnet eine erste Informationsmenge ε1 gemäß dem Ausgangswert vn des Neurons, das zu dem Ausgabeblock gehört, folgendermaßen:
    Figure 00380003
  • Ein zweiter Informationsmengenrechner 175 berechnet die zweite Informationsmenge ε2 folgendermaßen gemäß dem Ausgangswert Vn des Neurons, das zum Ausgabeblock gehört, dem Ausgangswert Vm des Neurons, das zum Eingangsblock gehört, und gemäß der Gewichtung Wm,n zwischen den vorstehenden Neuronen:
    Figure 00390001
  • Da
    Figure 00390002
    ein Wert ist, der sich im Lernmodus berechnet läßt, kann er als bekannter Wert im Vorgang des Berechnens vom Eingangsparameter behandelt werden.
  • Ein dritter Informationsmengenrechner 176 berechnet eine dritte Informationsmenge T folgendermaßen gemäß der ersten Informationsmenge ε1 und der zweiten Informationsmenge ε2: T = –ε2 + ε1 (39)
  • Eingangsparametersteuerung 407
  • die Eingangsparametersteuerung 407 sendet an die Bildeingabeeinheit 401 ein Eingangsparametersteuersignal zum Steuern der Richtung der optischen Achse von der Linse, dem Zoomen und dergleichen gemäß den Koordinaten des Merkmals, geliefert vom Merkmalsausleser 403 und der neuronalen Netzwerkgruppe 406 der symmetrisch verbundenen Art.
  • Das Steuern der Richtung der optischen Achse hängt beispielsweise ab von der Auswahl des Merkmals in einem Merkmalssatz, den der Merkmalsausleser 403 erfaßt. Das Auswahlkriterium wird beispielsweise durch folgende Gleichung (40) festgelegt: Lj = L (ωj, Tj, ρj) (40)
  • Wobei ωj ein Ausgangswert aus einem normierten 2D-Filter nahe dem j-ten Merkmal ist, Tj eine dritte Informationsmenge nahe dem j-ten Merkmal und ρj die Entfernung von der vorliegenden optischen Achse zum j-ten Merkmal ist.
  • Die Signaleingabeeinheit 408 empfängt ein Eingangssignal aus einem anderen Gerät, beispielsweise Kenntnisdaten, die von einem menschlichen Wesen geliefert werden, beispielsweise unter Verwendung einer Tastatur oder eines Signals aus einem anderen Sensor. Die Signalausgabeeinheit 409 sendet ein Ausgangssignal aus der neuronalen Netzwerkgruppe 406 der symmetrisch verbundenen Art an eine andere Einheit oder ein anderes Gerät, mit Ausnahme der Eingangsparametersteuerung 407 des Verarbeitungsgerätes für visuelle Information.
  • Durch Kombinieren des Verarbeitungsgerätes für visuelle Information gemäß diesem Ausführungsbeispiel mit einem anderen Gerät kann eine Vielfalt von Verfahren ausgeführt werden.
  • Beispielsweise während der Beobachtung des Gesichts eines menschlichen Wesens, kombiniert mit einem drahtlosen Signalgerät oder einem drahtgebundenen Signalgerät, ist die Eingabe vom Namen des menschlichen Wesens mit einem verdrahteten Signal oder einem drahtlosen Signal möglich, die Bilddaten des Gesichts und den Namen, der auf diese Weise zu speichern ist, daß beide miteinander zusammenhängen. Der vorstehende Prozeß ist nicht auf das Gesicht eines menschlichen Wesens in dem Sinne beschränkt, daß ein Bild mit einem Kennzeichen versehen wird. Wenn das Verarbeitungsgerät für visuelle Information kombiniert ist mit einem Sprachsignaleingabegerät zur Beigabe zum Bild mit dem Sprachsignal, kann die Genauigkeit der Erkennung des Bildes verbessert werden.
  • Das Sprachsignaleingabegerät und das Sprachsignalverarbeitungsgerät sind nicht auf die Stimme menschlicher Wesen beschränkt. Beispielsweise können Ultraschallwellen verwendet werden. Im vorstehenden Falle ermöglicht ein Ultraschallsensor Informationen über die Entfernung des Umgebungsgegenstands und kann gebildet werden unter Verwendung visueller Information und Entfernungsinformation.
  • Das Sprachsignaleingabegerät und das Sprachsignalverarbeitungsgerät läßt sich verwenden zum Ausführen einer Kommunikation unter einer Vielzahl autonom laufender Roboter oder einer Vielzahl von Überwachungsgeräten. Ein Fall wird beispielsweise herangezogen, in dem das Innere eines Gebäudes von einem Überwachungsgerät überwacht werden kann. Es wird die Annahme gemacht, daß ein Überwachungsgerät j einen bewegten Gegenstand erfaßt hat und den Gegenstand in Einzelheiten überwacht. Wenn sich der sich bewegende Gegenstand nach außen aus der Zone bewegt, die das Überwachungsgerät j überwachen kann, und in eine Zone eintritt, die von einem Überwachungsgerät k überwacht werden kann, kann die Zone, die das Überwachungsgerät k überwachen kann, Informationen von Überwachungsgerät j an Überwachungsgerät k senden, das detaillierte Daten des bewegten Gegenstands aus der Zone eingeführt hat, die vom Überwachungsgerät j überwacht werden kann, in die Zone, die das Überwachungsgerät k überwachen kann, wodurch das Überwachungsgerät j Ergebnisse im Überwachungsgerät k erfaßt, die aus der detaillierten Beobachtung des bewegten Gegenstands fortgelassen werden. Die vorstehende Struktur ist effektiv zum Reduzieren der zu speichernden Datenmenge und der Arbeit, die das Überwachungsgerät ausführen muß.
  • Wenn das Verarbeitungsgerät für visuelle Information kombiniert wird mit einem Fahrzeugroboter zum Transportieren von Teilen oder dergleichen in einer Fabrikationsstätte oder dergleichen, kann der Fahrzeugroboter befähigt sein, in flexibler Weise die Umgebung zu erfassen. Auch die Kombination mit einem Sprachsignalausgabegerät läßt sich realisieren.
  • Gemäß den Ausführungsbeispielen kann das Verfahren und das Gerät zum Verarbeiten visueller Information bereitgestellt werden, das in der Lage ist, schnell die optimale visuelle Information zu erfassen. Eine Vielfalt von Geräten, bei denen das Verfahren und das Gerät zur Verarbeitung visueller Information eingerichtet ist, kann darüber hinaus bereitgestellt werden.
  • Insbesondere ist zu beachten:
    • 1. Wenn die Bildeingabe leicht auf Grund irgendwelcher Grüne nicht leicht fortgesetzt werden kann, kann ein Ergebnis gewonnen werden, das die höchste Auftrittswahrscheinlichkeit zeigt. Da die vorstehenden Operationen parallel verarbeitet werden, kann die zum Abschluß der Operationen erforderliche Zeit signifikant abgekürzt werden. Da die vorstehende Struktur durch das neurale Netzwerk der Hopfield-Art aufgebaut ist, kann die Statusübergangsregel vereinfacht werden, und die erforderliche Zeit zur Prozeßvollendung kann weiter verkürzt werden.
    • 2. Vorzuziehen ist es, daß der Merkmalssatz eines Bildes ein Satz endlicher Punkte ist. Da jedoch die Kante weitestgehend als Merkmalsgleichheit mit der herkömmlichen Technik fortgesetzt verwendet wird, ist eine gewisse Nachverarbeitung erforderlich, beispielsweise muß die Stärke der Kante binär umgesetzt werden, um eine endliche Zahl von Punktsätzen zu erhalten. Ein Merkmalspunkt läßt sich erzielen als ein isolierter Punkt. Darüber hinaus sind der Transformiercodierer, der Quantisierer und die Kenntniserfassungseinheit in der Lage, die Sensoreingabe und die Kenntnisdaten in vereinheitlichter Form zu behandeln. Im Ergebnis kann die Struktur der Ausführungsbeispiele angewandt werden zum Erkennen der Umgebung, die aus komplizierten Sehmustern aufgebaut ist.
    • 3. Unter Verwendung eines Laplace-Gauß-Filters als 2D-Filter kann die visuelle Information der Umgebung ungefähr in einen Mehrfachauflösungsunterraum transformiert werden. Durch geeignetes Steuern der Richtung der optischen Achse kann die Beschreibung eines Mehrfachauflösungsunterraums eines Bildes oder einer Umgebung ungefähr gewonnen werden. Wenn ein einfacher Durchschnittsbildungsprozeß als 2D-Filter angewandt wird, kann die Beschreibung bei der Mehrfachauflösungsannäherung in Hinsicht auf eine Teildomäne des Bildes oder eine Umgebung erzielt werden. Wenn der Kern der Verwendung im Mehrfachauflösungsraum als derjenige des 2D-Filters verwendet wird, kann ein entsprechender Mehrfachauflösungsraum ungefähr erzielt werden. Die vorstehende Struktur ist ein effektives Erfassungsverfahren in einem Fall, bei dem die visuelle Information der Umgebung eine Teildomäne eines Mehrfachauflösungsraums abdeckt.
    • 4. Ein neuronales Netzwerk der Vorwärtszuführungsart ermöglicht die Hochgeschwindigkeitsvorwärtssteuerung, wobei die Geschwindigkeit, die höher als die des neuronalen Netzwerks der Hopfield-Art ist, zur Ausführung kommt.
    • 5. Ein Mehrfachauflösungsraum wird verwendet als Merkmalsmengenraum, und die Aufmerksamkeit wird dem Ortsmuster im vorstehenden Raum gewidmet, so daß eine Invariante in Hinsicht auf eine spezifische Bewegung eines Gegenstands in der Umgebung vorhanden ist und erzielt werden kann. Die Bewegung entlang der optischen Achse ist beispielsweise nur die Verschiebung der Merkmalsmenge eines Gegenstands entlang der Maßstabsachse.
    • 6. Durch Kombinieren eines Sprachsignaleingabegerätes mit einem Sprachsignalverarbeitungsgerät kann ein Befehl von einem menschlichen Wesen mittels Sprache gesendet werden, oder ein Hindernis kann mittels Klang identifiziert werden. Durch Kombinieren eines drahtlosen Signalübertragungsgeräts mit einem drahtgebundenen Signalverarbeitungsgerät oder einem drahtgebundenen Signalübertragungsgerät und einem drahtgebundenen Signalverarbeitungsgerät können Befehle gesendet/empfangen werden zu und von an einen anderen Computer und von diesem, oder es können Informationen gesendet/empfangen werden zu und von einem anderen Verarbeitungsgerät für visuelle Information. Die Kenntniserfassungseinheit ist in de Lage, den Eingangsparameter als Reaktion auf das Sprachsignal zu steuern, das drahtlose Signal und das drahtgebundene Signal. Ein Gegenstand, der als Reaktion auf ein solches einzelnes Signal bisher nicht erkannt werden konnte, läßt sich nun erkennen. Kenntnisdaten werden aus einem anderen Verarbeitungsgerät für visuelle Information aufgenommen, so daß die zum Ausführen des Prozesses im Lernmodus verkürzt wird.
    • 7. Durch Kombinieren eines Arbeitswerkzeugs mit einem Gerät zum Steuern des Arbeitswerkzeugs kann eine Operation ausgeführt werden, die angepaßt ist an den Umgebungszustand. Wenn das Ausführen der Operation beträchtlich von der Umgebung abhängt, kann eine Gruppenarbeit mit einem automatischen Betriebsroboter in effektiver Weise ausgeführt werden.
    • 8. Durch Kombinieren eines Sprachsignalausgabegeräts kann der Zustand vom Nutzer durch Information zu umgebenden Personen gewonnen werden. Ein autonomer Roboter, eingereichtet für eine Gruppenarbeit mit menschlichen Wesen läßt sich somit aufbauen.
  • Die vorstehenden Ausführungsbeispiele lassen sich anwenden bei einem System mit einer Vielzahl von Geräten, oder sie können angewandt werden bei einem speziellen Gerät in einem System. Ausführungsbeispiele können angewandt werden in einem Fall, bei dem ein Computer ein Programm ausführt, um eine Aufgabe zu lösen. Das Programm kann von einem externen Speichermedium geliefert werden.
  • Obwohl die Ausführungsbeispiele in ihren bevorzugten Formen mit einem gewissen Grad an Eigenartigkeit beschrieben worden sind, können viele offensichtlich weitestgehend unterschiedliche Ausführungsbeispiele der Erfindung ohne Abweichen vom Umfang dieser aufgebaut werden.

Claims (20)

  1. Verfahren zum Steuern der Sehrichtung eines Betrachtungsgerätes zum Betrachten unterschiedlicher Bereiche einer Szene und zum Verarbeiten von Bilddaten aus dem Betrachtungsgerät zum Ausführen einer Mustererkennung unter Bezug auf einen ersten Satz (Ω(0)) erster Muster und einen zweiten Satz (Ω(1)) zweiter Muster, wobei jedes erste Muster ein mögliches Muster in einem Szenenbereich und jedes zweite Muster eine räumliche Anordnung eines jeweiligen Musters einer Vielzahl erster Muster darstellt, mit dem Verfahrensschritten: (a) Feststellen eines Merkmalspunktes in Daten, die einen aktuellen Szenenbereich darstellen, gesehen vom Betrachtungsgerät, und Auslesen eines Musters aus den Daten abhängig von der Merkmalspunktposition; (b) Bestimmen für jedes Muster einer jeweiligen Auftrittswahrscheinlichkeit, die eine Wahrscheinlichkeit darstellt, daß das ausgelesene Muster dasjenige des ersten Musters ist; (c) Auswählen eines neuen Szenenbereichs, der aus einer Vielzahl von Szenenbereichen zu sehen ist, die mit dem aktuellen Szenenbereich eine räumliche Anordnung von Bereichen entsprechend der räumlichen Anordnung erster Muster in jedem zweiten Muster festlegen, wobei die Auswahl des neuen Szenenbereichs, der zu sehen ist, die Verfahrensschritte umfaßt (i) Verwenden der vorbestimmten Auftrittsgeschwindigkeiten zum Berechnen eines jeden der Vielzahl von Szenenbereichen, die sich vom aktuellen Szenenbereich unterscheiden, eines jeweiligen Informationswertes (T), der die Informationsmenge festlegt, die beim Betrachten des Szenenbereich als verfügbar zu erwarten ist, um eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz zu bestimmen, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist; und (ii) Auswählen des neuen zu betrachtenden Szenenbereichs in Abhängigkeit von den berechneten Informationswerten (T) und dem Abstand (ρ) eines jeden der Vielzahl von Szenenbereichen aus dem aktuellen Szenenbereich; (d) Erzeugen eines Steuersignals zum Bewegen des Betrachtungsgerätes, um den ausgewählten neuen Szenenbereich zu sehen; (e) Erfassen eines Merkmalspunktes in Daten, die den neuen vom Betrachtungsgerät gesehenen Szenenbereich darstellen, und Auslesen eines Musters aus den Daten in Abhängigkeit von der Merkmalspunktposition; (f) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes Musters, die die Wahrscheinlichkeit festlegt, daß das aus dem neuen Szenenbereich ausgelesene Muster das erste Muster ist; und (g) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
  2. Verfahren nach Anspruch 1, bei dem das Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz folgende Verfahrensschritte umfaßt: Bestimmen, ob ein zweites Muster als ein zweites in der Szene vorhandenes Muster identifizierbar ist, und: (i) im Falle, daß die Identifikation erfolgen kann, Auswählen des identifizierten zweiten Musters; (ii) im Falle, daß die Identifikation nicht erfolgen kann, Wiederholen der Schritte (c)(ii), (d), (e), (f) und des gegenwärtigen Schritts, bis ein Muster im zweiten Satz als ein in der Szene vorhandenes zweites Muster identifiziert werden kann, oder bis eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster bestimmt ist, das eine Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
  3. Verfahren nach Anspruch 1 oder nach Anspruch 2, das weiterhin den Verfahrensschritt des Ausführens der Verarbeitung unter Bezug auf einen dritten Satz (Ω(2)) von dritten Mustern umfaßt, wobei jedes dritte Muster ein mögliches Muster in der Szene und jedes dritte Muster eine räumliche Anordnung eines jeweiligen Musters aus einer Vielzahl zweiter Muster darstellt, um eine jeweilige Auftrittswahrscheinlichkeit für jedes dritte Muster im dritten Satz zu bestimmen, der eine Wahrscheinlichkeit darstellt, daß das dritte Muster in der Szene vorhanden ist.
  4. Verfahren nach einem der vorstehenden Ansprüche, bei dem das Bild aus dem Betrachtungsgerät darstellende Daten solche enthalten, die das Bild in einem Vielfachauflösungsraum darstellen, und bei dem der Verfahrensschritt des Feststellens eines Merkmalspunktes das Feststellen eines Merkmalspunktes im Vielfachauflösungsraum umfaßt.
  5. Verfahren nach Anspruch 4, bei dem der Verfahrensschritt des Auslesens eines Musters in Abhängigkeit von der Position eines festgestellten Merkmalspunktes das Auslesen eines Musters in einer vorbestimmten Tiefe des Mehrfachauflösungsraumes umfaßt.
  6. Verfahren nach einem der vorstehenden Ansprüche, bei dem der Verfahrensschritt des Feststellens eines Merkmalspunktes Verarbeiten der Daten zum Erzeugen eines als Funktion einer komplexen Variablen ausgedrückten Vektorfeldes und Ausführen der Verarbeitung unter Verwendung des Grundprinzips umfaßt, um einen Merkmalspunkt festzustellen.
  7. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Muster in jedem Satz in einem stochastischen Automaten festgelegt sind, der eine Vielzahl von Zellen hat, und wobei wenigstens ein Teil der Verarbeitung unter Verwendung des stochastischen Automaten erfolgt.
  8. Verfahren nach einem der Ansprüche 1 bis 6, bei dem ein neutralen Netz des Hopfield-Typs die Muster eines jeden Satzes festlegt und bei dem wenigstens einen Teil der Verarbeitung unter Verwendung des neuronale Netzes vom Hopfield-Typ erfolgt.
  9. Verfahren nach einem der Ansprüche 1 bis 6, bei dem eine Vielzahl von neuronalen Netzen der symmetrisch verbundenen Art die Muster in jedem Satz festlegt und bei dem wenigstens ein Teil der Verarbeitung unter Verwendung der Vielzahl neuronaler Netze erfolgt .
  10. Gerät zum Steuern der Sehrichtung eines Betrachtungsgerätes zum Betrachten unterschiedlicher Bereiche einer Szene und zum Verarbeiten von Bilddaten aus dem Betrachtungsgerät zum Ausführen einer Mustererkennung unter Bezug auf einen ersten Satz (Ω(0)) erster Muster und einen zweiten Satz (Ω(1)) zweiter Muster, wobei jedes erste Muster ein mögliches Muster in einem Szenenbereich und jedes zweite Muster eine räumliche Anordnung eines jeweiligen Musters einer Vielzahl erster Muster darstellt, mit einem Verarbeitungsmittel, das betriebsbereit ist zum: (a) Feststellen eines Merkmalspunktes in Daten, die einen aktuellen Szenenbereich darstellen, gesehen vom Betrachtungsgerät, und Auslesen eines Musters aus den Daten abhängig von der Merkmalspunktposition; (b) Bestimmen für jedes Muster einer jeweiligen Auftrittswahrscheinlichkeit, die eine Wahrscheinlichkeit darstellt, daß das ausgelesene Muster dasjenige des ersten Musters ist; (c) Auswählen eines neuen Szenenbereichs, der aus einer Vielzahl von Szenenbereichen zu sehen ist, die mit dem aktuellen Szenenbereich eine räumliche Anordnung von Bereichen entsprechend der räumlichen Anordnung erster Muster in jedem zweiten Muster festlegen, wobei die Auswahl des neuen Szenenbereichs, der zu sehen ist, die Verfahrensschritte umfaßt (i) Verwenden der vorbestimmten Auftrittsgeschwindigkeiten zum Berechnen eines jeden der Vielzahl von Szenenbereichen, die sich vom aktuellen Szenenbereich unterscheiden, eines jeweiligen Informationswertes (T), der die Informationsmenge festlegt, die beim Betrachten des Szenenbereich als verfügbar zu erwarten ist, um eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz zu bestimmen, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist; und (ii) Auswählen des neuen zu betrachtenden Szenenbereichs in Abhängigkeit von den berechneten Informationswerten (T) und dem Abstand (p) eines jeden der Vielzahl von Szenenbereichen aus dem aktuellen Szenenbereich; (d) Erzeugen eines Steuersignals zum Bewegen des Betrachtungsgerätes, um den ausgewählten neuen Szenenbereich zu sehen; (e) Erfassen eines Merkmalspunktes in Daten, die den neuen vom Betrachtungsgerät gesehenen Szenenbereich darstellen, und Auslesen eines Musters aus den Daten in Abhängigkeit von der Merkmalspunktposition; (f) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes Musters, die die Wahrscheinlichkeit festlegt, daß das aus dem neuen Szenenbereich ausgelesene Muster das erste Muster ist; und (g) Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz, der die Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
  11. Gerät nach Anspruch 10, dessen Verarbeitungsmittel betriebsbereit ist zum Ausführen der Verarbeitung zum Bestimmen einer jeweiligen Auftrittswahrscheinlichkeit für jedes zweite Muster im zweiten Satz durch: Bestimmen, ob ein zweites Muster als ein zweites in der Szene vorhandenes Muster identifizierbar ist, und: (i) im Falle, daß die Identifikation erfolgen kann, Auswählen des identifizierten zweiten Musters; (ii) im Falle, daß die Identifikation nicht erfolgen kann, Wiederholen der Schritte (c)(ii), (d), (e), (f) und des gegenwärtigen Schrittes, bis ein Muster im zweiten Satz als ein zweites Muster identifiziert werden kann, das in der Szene vorhanden ist, oder bis eine jeweilige Auftrittswahrscheinlichkeit für jedes zweite Muster bestimmt ist, das eine Wahrscheinlichkeit darstellt, daß das zweite Muster in der Szene vorhanden ist.
  12. Gerät nach Anspruch 10 oder 11, dessen Verarbeitungsmittel weiterhin betriebsbereit ist zum Ausführen der Arbeit unter Bezug auf einen dritten Satz (Ω(2)) von dritten Mustern, wobei jedes dritte Muster ein mögliches Muster in der Szene und jedes dritte Muster eine räumliche Anordnung eines jeweiligen Musters aus einer Vielzahl zweiter Muster darstellt, um eine jeweilige Auftrittswahrscheinlichkeit für jedes dritte Muster im dritten Satz zu bestimmen, der eine Wahrscheinlichkeit darstellt, daß das dritte Muster in der Szene vorhanden ist.
  13. Gerät nach einem der Ansprüche 10 bis 12, bei dem die das Bild aus dem Betrachtungsgerät darstellenden Daten das Bild in einem Vielfachauflösungsraum darstellen, und bei dem das Verarbeitungsmittel betriebsbereit ist, einen Merkmalspunkt durch Feststellen eines Merkmalspunktes im Vielfachauflösungsraum festzustellen.
  14. Gerät nach Anspruch 13, dessen Verarbeitungsmittel betriebsbereit ist zum Auslesen eines Musters in Abhängigkeit von der Position eines festgestellten Merkmalspunktes durch Auslesen eines Musters in einer vorbestimmten Tiefe des Mehrfachauflösungsraumes.
  15. Gerät nach einem der Ansprüche 10 bis 14, dessen Verarbeitungsmittel betriebsbereit ist, einen Merkmalspunkt durch Verarbeiten der Daten zum Erzeugen eines als Funktion einer komplexen Variablen ausgedrückten Vektorfeldes und zum Ausführen der Verarbeitung unter Verwendung des Grundprinzips, um einen Merkmalspunkt festzustellen.
  16. Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel über einen stochastischen Automaten verfügt, der eine Vielzahl von Zellen besitzt, und wobei die Muster in jedem Satz im stochastischen Automaten festgelegt sind.
  17. Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel ein neuronales Netz vom Hopfield-Typ enthält und bei dem die Muster in jedem Satz im neuronalen Netz des Hopfield-Typs festgelegt sind.
  18. Gerät nach einem der Ansprüche 10 bis 15, dessen Verarbeitungsmittel eine Vielzahl neuronaler Netze der symmetrisch verbundenen Art enthält, und wobei die Muster eines jeden Satzes in der Vielzahl neuronaler Netze festgelegt sind.
  19. Computerprogramm mit Befehlen zum Programmieren eines programmierbaren Verarbeitungsgerätes, um betriebsbereit zu werden zum Ausführen eines Verfahrens, das wenigstens in einem der Ansprüche 1 bis 9 angegeben ist.
  20. Speichermedium, das ein Computerprogramm nach Anspruch 19 speichert.
DE69634221T 1995-03-31 1996-03-27 Verfahren und Gerät zur Verarbeitung visueller Information Expired - Fee Related DE69634221T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP7658395 1995-03-31
JP7658395 1995-03-31

Publications (2)

Publication Number Publication Date
DE69634221D1 DE69634221D1 (de) 2005-03-03
DE69634221T2 true DE69634221T2 (de) 2006-05-18

Family

ID=13609314

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69634221T Expired - Fee Related DE69634221T2 (de) 1995-03-31 1996-03-27 Verfahren und Gerät zur Verarbeitung visueller Information

Country Status (4)

Country Link
US (2) US6115480A (de)
EP (1) EP0737938B1 (de)
CA (1) CA2172791C (de)
DE (1) DE69634221T2 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6265993B1 (en) * 1998-10-01 2001-07-24 Lucent Technologies, Inc. Furlable keyboard
DE19924009C2 (de) * 1999-05-26 2002-11-28 Siemens Ag Mustersuche
US6704440B1 (en) * 1999-06-24 2004-03-09 General Electric Company Method and apparatus for processing a medical image containing clinical and non-clinical regions
US6366897B1 (en) 1999-07-26 2002-04-02 Hnc Software, Inc. Cortronic neural networks with distributed processing
US9092841B2 (en) 2004-06-09 2015-07-28 Cognex Technology And Investment Llc Method and apparatus for visual detection and inspection of objects
US7545949B2 (en) * 2004-06-09 2009-06-09 Cognex Technology And Investment Corporation Method for setting parameters of a vision detector using production line information
EP1472052A2 (de) 2002-01-31 2004-11-03 Braintech Canada, Inc. Verfahren und vorrichtung für 3d-sicht geführte roboter mit einer kamera
US6795794B2 (en) 2002-03-01 2004-09-21 The Board Of Trustees Of The University Of Illinois Method for determination of spatial target probability using a model of multisensory processing by the brain
US20030231239A1 (en) * 2002-06-12 2003-12-18 Corzilius Brian S. Nodal video stream processor and method
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7447665B2 (en) * 2004-05-10 2008-11-04 Kinetx, Inc. System and method of self-learning conceptual mapping to organize and interpret data
JP2005339313A (ja) * 2004-05-28 2005-12-08 Toshiba Corp 画像提示方法及び装置
US8891852B2 (en) 2004-06-09 2014-11-18 Cognex Technology And Investment Corporation Method and apparatus for configuring and testing a machine vision detector
US8127247B2 (en) * 2004-06-09 2012-02-28 Cognex Corporation Human-machine-interface and method for manipulating data in a machine vision system
US8243986B2 (en) * 2004-06-09 2012-08-14 Cognex Technology And Investment Corporation Method and apparatus for automatic visual event detection
US20050276445A1 (en) * 2004-06-09 2005-12-15 Silver William M Method and apparatus for automatic visual detection, recording, and retrieval of events
US7336814B2 (en) * 2004-07-14 2008-02-26 Braintech Canada, Inc. Method and apparatus for machine-vision
US7636449B2 (en) 2004-11-12 2009-12-22 Cognex Technology And Investment Corporation System and method for assigning analysis parameters to vision detector using a graphical interface
US9292187B2 (en) 2004-11-12 2016-03-22 Cognex Corporation System, method and graphical user interface for displaying and controlling vision system operating parameters
US7720315B2 (en) 2004-11-12 2010-05-18 Cognex Technology And Investment Corporation System and method for displaying and using non-numeric graphic elements to control and monitor a vision system
US20070276539A1 (en) * 2006-05-25 2007-11-29 Babak Habibi System and method of robotically engaging an object
DE102006042157B4 (de) 2006-09-06 2013-03-21 Leica Microsystems Cms Gmbh Verfahren und Mikroskopiersystem zum Scannen einer Probe
WO2008036354A1 (en) * 2006-09-19 2008-03-27 Braintech Canada, Inc. System and method of determining object pose
JP4274221B2 (ja) * 2006-10-02 2009-06-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US7751621B1 (en) * 2007-01-30 2010-07-06 Jacobsen Kenneth P Method and system for rapid object recall within images
US8237099B2 (en) * 2007-06-15 2012-08-07 Cognex Corporation Method and system for optoelectronic detection and location of objects
CN101689302A (zh) * 2007-06-27 2010-03-31 日本电气株式会社 特征属性计算装置、特征量提取装置、图形核对装置、方法以及程序
US7957583B2 (en) * 2007-08-02 2011-06-07 Roboticvisiontech Llc System and method of three-dimensional pose estimation
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
CN102165486B (zh) * 2008-09-01 2015-05-13 日本电气株式会社 图像特征提取设备
US8559699B2 (en) 2008-10-10 2013-10-15 Roboticvisiontech Llc Methods and apparatus to facilitate operations in image based systems
US8712109B2 (en) * 2009-05-08 2014-04-29 Microsoft Corporation Pose-variant face recognition using multiscale local descriptors
JP5555101B2 (ja) * 2010-08-31 2014-07-23 株式会社日立情報通信エンジニアリング 画像補正装置、補正画像生成方法および補正画像生成プログラム
JP5558973B2 (ja) * 2010-08-31 2014-07-23 株式会社日立情報通信エンジニアリング 画像補正装置、補正画像生成方法、補正テーブル生成装置、補正テーブル生成方法、補正テーブル生成プログラムおよび補正画像生成プログラム
US9651499B2 (en) 2011-12-20 2017-05-16 Cognex Corporation Configurable image trigger for a vision system and method for using the same
US9286693B2 (en) * 2013-02-25 2016-03-15 Hanwha Techwin Co., Ltd. Method and apparatus for detecting abnormal movement
CN108646384B (zh) * 2018-04-13 2020-09-01 维沃移动通信有限公司 一种对焦方法、装置及移动终端
US10831702B2 (en) 2018-09-20 2020-11-10 Ceva D.S.P. Ltd. Efficient utilization of systolic arrays in computational processing
GB2578769B (en) 2018-11-07 2022-07-20 Advanced Risc Mach Ltd Data processing systems
GB2583061B (en) * 2019-02-12 2023-03-15 Advanced Risc Mach Ltd Data processing systems
CN110286780B (zh) * 2019-06-26 2022-06-07 西南民族大学 一种基于机器视觉的机电混合式无人值守计算机操作装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8518803D0 (en) * 1985-07-25 1985-08-29 Rca Corp Locating target patterns within images
US5579444A (en) * 1987-08-28 1996-11-26 Axiom Bildverarbeitungssysteme Gmbh Adaptive vision-based controller
US4907169A (en) * 1987-09-30 1990-03-06 International Technical Associates Adaptive tracking vision and guidance system
ATE108288T1 (de) * 1988-07-28 1994-07-15 Contraves Ag Automatische helligkeits- und kontrast-steuerung einer video-kamera für industrielle/militärische zwecke.
US4958939A (en) * 1988-11-14 1990-09-25 Honeywell Inc. Centering scheme for pattern recognition
DE69214229T2 (de) * 1991-08-14 1997-04-30 Agfa Gevaert Nv Verfahren und Vorrichtung zur Kontrastverbesserung von Bildern
JP3220963B2 (ja) * 1993-01-19 2001-10-22 ソニー株式会社 自律移動方法および装置
US5499306A (en) * 1993-03-08 1996-03-12 Nippondenso Co., Ltd. Position-and-attitude recognition method and apparatus by use of image pickup means
JP3221785B2 (ja) * 1993-10-07 2001-10-22 株式会社日立製作所 撮像装置
JPH07239938A (ja) * 1994-02-28 1995-09-12 Matsushita Electric Ind Co Ltd 検査方法
US5638190A (en) * 1994-03-29 1997-06-10 Clemson University Context sensitive color quantization system and method
US5638465A (en) * 1994-06-14 1997-06-10 Nippon Telegraph And Telephone Corporation Image inspection/recognition method, method of generating reference data for use therein, and apparatuses therefor

Also Published As

Publication number Publication date
US6466692B1 (en) 2002-10-15
US6115480A (en) 2000-09-05
DE69634221D1 (de) 2005-03-03
EP0737938A2 (de) 1996-10-16
EP0737938B1 (de) 2005-01-26
CA2172791C (en) 2000-11-14
CA2172791A1 (en) 1996-10-01
EP0737938A3 (de) 1997-02-26

Similar Documents

Publication Publication Date Title
DE69634221T2 (de) Verfahren und Gerät zur Verarbeitung visueller Information
DE69217047T2 (de) Verbesserungen in neuronalnetzen
DE602004002180T2 (de) Objekterkennung
CN109993707B (zh) 图像去噪方法和装置
DE69838181T2 (de) Visualisierung und selbstorganisation multidimensionaler daten durch ausgeglichene orthogonale abbildung
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE112019002589T5 (de) Tiefenlernsystem
Fu et al. Ppt fusion: Pyramid patch transformerfor a case study in image fusion
EP3657440A1 (de) Verfahren und system zur dreidimensionalen rekonstruktion eines menschlichen kopfes aus mehreren bildern
DE102018102791A1 (de) Erkennungssystem, Extraktionseinheit für generische Merkmale und Erkennungssystemkonfiguration
KR102333682B1 (ko) 3차원 공간의 의미적 분할 시스템 및 이를 이용한 3차원 공간의 의미적 분할 방법
DE112020004321T5 (de) Kontextuelle erdung von phrasen in natürlicher sprache in bildern
DE602004002837T2 (de) Objekterkennung
DE202017007512U1 (de) Bewegungsschätzung durch maschinelles Lernen
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
DE102021205722A1 (de) System und verfahren für mehrskalenmodelle mit tiefem gleichgewicht
DE4326487C2 (de) Adaptives Filter
DE102022213442A1 (de) Verfahren zur omnidirektionalen dense-regression für maschinelle wahrnehmungsaufgaben mittels verzerrungsfreiem cnn und sphärischer self-attention
DE102021102748A1 (de) 3d-posenschätzung des menschlichen körpers unter verwendung eines modells, das ausgehend von ungelabelten multi-view-daten trainiert wurde
CN110705564B (zh) 图像识别的方法和装置
CN117237623B (zh) 一种无人机遥感图像语义分割方法及***
Zhang 2D Computer Vision
DE102020207974A1 (de) Systeme und verfahren zum nachweis von bewegung während 3d-datenrekonstruktion
DE10145608B4 (de) Modellbasierte Objektklassifikation und Zielerkennung
DE102023109072A1 (de) Datenaugmentierung für domänenverallgemeinerung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee