DE69332397T2

DE69332397T2 - Mustererkennungsgerät

Info

Publication number: DE69332397T2
Application number: DE69332397T
Authority: DE
Inventors: Shigeru Arisawa; Masahiro Fujita
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-09-08
Filing date: 1993-08-25
Publication date: 2003-06-05
Anticipated expiration: 2013-08-26
Also published as: DE69332397D1; KR940008423A; KR100320063B1; EP0587349B1; JP3252381B2; JPH0689344A; EP0587349A3; US5469512A; EP0587349A2

Description

Die vorliegende Erfindung bezieht sich auf ein Mustererkennungsgerät, welches zur Bilderkennung oder dgl. geeignet ist.
Fig. 8 ist eine Blockdarstellung, die den Aufbau eines vor kurzem vorgeschlagenen Bilderkennungsgeräts zeigt. Ein Luminanzpegelsignal I(x, y) auf der xy-Ebene als Bilddaten, beispielsweise ein Gesicht einer Person, welches durch eine Videokamera (nicht gezeigt) fotografiert wurde, oder dgl. wird zu einer Vorverarbeitungseinheit 21 geliefert. In der Vorverarbeitungseinheit 21 wird die charakteristische Menge der Bilddaten I(x, y), beispielsweise ein Bildrand P(x, y) ermittelt und an eine Analyseeinheit 22 ausgegeben.
Die Analyseeinheit 22 führt eine Hauptkomponentenanalyse oder dgl. für die charakteristische Menge P(x, y) des Bilds der Person, welches von der Vorverarbeitungseinheit 21 ausgegeben wurde, durch. Sie berechnet einen Beitragsgrad X&sub1; der charakteristischen Menge P(x, y) des Bilds der Person für alle Funktionen F&sub1; (x, y) (i = 1, 2, . . . r) von r Stücken, die vorher in einer Funktionsspeichereinheit 23 gespeichert wurden und gibt sie an eine Musterklassifizierungseinheit 24 aus.
Die Musterklassifizierungseinheit 24 speichert, wenn das Gerät sich in einem Lemmodus befindet, den Beitragsgrad X&sub1; der charakteristischen Menge P(x, y) des Bilds der Person, welches durch die Analyseeinheit 22 ausgegeben wird, in einem Speicher (nicht gezeigt), der darin enthalten ist, gemäß der Personinformation K(t), die beispielsweise die Funktion der Anzahl t ist, die der Person zugeordnet ist (t = 1, 2, . . . T; T ist die Anzahl der Gesichter der Personen), als Erkennungsergebnis. In diesem Fall wird beispielsweise ein Durchschnittswert von mehreren Beitragsgraden X&sub1;, X&sub1;', X&sub1;", X&sub1;''' . . . für das Bild der gleichen Person als Personinformation K(t) genommen.
Die Musterklassifizierungseinheit 24 berechnet, wenn das Gerät sich im Erkennungsmodus befindet, die Euklidische Entfernung zwischen dem Beitragsgrad X&sub1; der charakteristischen Menge P(x, y) des Bilds des Person, welches von der Analyseeinheit 22 ausgegeben wird, und einer bestimmten Personeninformation K(t), die vorher im darin enthaltenen Speicher gespeichert wurde. Sie gibt die Anzahl t in der Personeninformation k (t) aus, wobei die Abstände als Erkennungsergebnis minimiert sind.
Die Erkennung des Bilds des Gesichts der Person ist somit durchgeführt.
Als Verfahren zur Erkennung des Gesichts der Person wurde ein Verfähren vorgeschlagen, bei dem ein Bildkompressionsverfahren verwendet wird, was als Modellbasiscodierung bezeichnet wird ["Treatment of Luminance/Chrominance and Motion Information Applied to 3-D Model-based Coding of Moving Facial Images". Journal of Institute of Television, Band 45, Nr. 10, Seite 1277-1287 (1991)]. Außerdem wurden betreffende Verfahren in den folgenden Dokumenten offenbart: ["Eigenfaces for Recognition": Journal of Cognitive Neuroscience, Band 3, Nr. 1, Seite 71-86 (1991), [Caricature Generator: The Dynamics Exaggeration of Faces by Computer, Susan E. Brennan in Leonardo, Band 18, Nr. 3, Seite 170-178; 1995] und [Face to Face: Its the Expression that bears the Message, Jeanne McDermott in Smithsonian, Band 16, Nr. 12, Seite 112-123, März 1986]. Bei der Modellbasiscodierung wird auf der Codierseite, wie in Fig. 9 gezeigt ist, das sogenannte Drahtrahmenmodell so hergestellt, damit es dem gelieferten Gesicht der Person entspricht, und die Differenzinformation (Charakteristik des Gesichts der Person zum Modell) wird herausgenommen und übertragen. Dagegen wird auf der Decodierseite das gleiche Modell, welches auf der Codierseite verwendet wurde, auf der Basis der obigen Differenzinformation verformt, um das Gesicht der Person zu reproduzieren.
Folglich wird bei der Erkennung des Gesichts der Person unter Verwendung der Modellbasiscodierung die Differenzinformation zwischen dem gelieferten Bild des Gesichts der Person (Fig. 10a) und dem Modell (Fig. 10b) zuerst herausgenommen.
Das Bild des Gesichts der Person (Fig. 10a), welches durch eine Videokamera fotografiert wird, wird nämlich in einen Computer eingegeben und auf einer Kathodenstrahlröhre angezeigt. Dann werden die Positionen des Bilds des Gesichts der Person, welches auf der Kathodenstrahlröhre angezeigt wird (angedeutet mit X-Markierungen in Fig. 10c) gemäß den angegebenen Positionen, die vorher auf dem Drahtrahmenmodell (Fig. 10b) festgelegt wurden, beispielsweise Augen, beide Enden des Mundes und dgl. (angedeutet mit X-Markierungen in Fig. 10b) bestimmt, beispielsweise durch einen Mausklick. Das Drahtrahmenmodell wird deformiert, wie in Fig. 10d gezeigt ist, so daß die Positionen (Fig. 10c), die auf dem Bild des Gesichts der Person bestimmt wurden, auf den angegebenen Positionen (Fig. 10b) überlappt sind, die vorher auf dem Drahtrahmenmodell festgelegt wurden. Damit wird die verformte Menge als Differenzinformation herausgenommen.
Die somit herausgenommene Differenzinformation wird so gemacht, daß sie der Information der Person entspricht, die in einem Speicher, der im Computer enthalten ist, als Erkennungsinformation gespeichert ist.
Bei der Erkennung des Gesichts der Person wird die Erkennungsinformation, die der Differenzinformation gegenüber dem eingegebenen Bild des Gesichts der Person am ähnlichsten ist, ermittelt, und die Information der Person wird gemäß der Erkennungsinformation als Erkennungsergebnis ausgegeben.
Bei der oben beschriebenen Bilderkennung gibt es jedoch, da das Gesicht der Person durch eine Videokamera fotografiert wird, die Tendenz, daß eine vertikale oder horizontale Abweichung und eine Neigung auf dem Bildschirm erzeugt werden, und außerdem sie die Größenordnungen voneinander verschieden.
Folglich wird beispielsweise in diesem Fall in der Analyseeinheit 22 von Fig. 8 nicht nur die Information über das Bild des Gesichts der Person, sondern auf die Information über die vertikale oder horizontale Abweichung und die Positionsabweichung aufgrund einer Drehung in bezug auf das Bild des Gesichts der Person auf dem Bildschirm, und weiter die Abweichung bezüglich der Größe aufgrund des Vergrößerungs-/Verkleinerungsverhältnisses einer Videokamera, das heißt, die nicht notwendige Information der Hauptkomponentenanalyse unterworfen. Dies verursacht den Nachteil, das Erkennungsverhältnis zu verschlechtern.
Außerdem muß das in Fig. 10b gezeigte Modell für jedes Erkennungsobjekt vorbereitet werden. Für die Erkennung des Gesichts einer Person muß das Modell des Gesichts einer Person vorbereitet werden, und für die Erkennung der Hand einer Person muß das Modell der Hand einer Person vorbereitet werden. Zusätzlich müssen beispielsweise in einem Fall, daß alle Modell vorbereitet und gespeichert werden, viele Speicher vorbereitet sein, was den Nachteil verursacht, daß die Baugröße des Geräts größer wird.
Dagegen müssen bei der Erkennung des Gesichts einer Person bei Verwendung der oben beschriebenen Modellbasiscodierung die Positionen des Bilds, des Gesichts einer Person, welches auf einer Kathodenstrahlröhre angezeigt wird (mit X-Markierungen in Fig. 10c gezeigt) mit einer Maus angeklickt werden, was eine Unannehmlichkeit verursacht.
Die WO-A 92/02000 offenbart ein Bilderkennungsverfahren, bei dem eine Schablone verformt und normiert wird, wobei die normierte Schablone dann dazu verwendet wird, um die Mustererkennung gemäß einem Korrelationsverfahren durchzuführen.
Gemäß einem Merkmal der Erfindung wird ein Mustererkennungsgerät bereitgestellt, welches aufweist:
eine Vorbereitungseinrichtung, um ein Eingangsmuster auf der Basis der eingegangenen Information vorzubereiten;
eine Basismusterlern-/Speichereinrichtung, um mehrere Basismuster zu speichern;
eine vergleichende Verarbeitungseinrichtung, um das Eingangsmuster mit den Basismustern zu vergleichen;
wobei die Mustererkennungseinrichtung dadurch gekennzeichnet ist, daß die vergleichende Verarbeitungseinrichtung Korrelationsbeträge des Eingangsmusters in bezug auf die mehreren Basismuster bestimmt und das eine Basismuster auswählt, für welches der Beitragsbetrag maximiert ist;
die vergleichende Verarbeitungseinrichtung einen Verformungsbetrag des Eingangsmusters in bezug auf das ausgewählte Basismuster bestimmt;
eine Musterlern-/Speichereinrichtung sowohl zum Regenerieren als auch zum Speichern eines Standardmusters in Verbindung mit jedem erkennbaren Muster in Abhängigkeit vom Verformungsbetrag oder zum Erkennen des Eingangsmusters durch Bestimmen, welches gespeicherte Standardmuster ein Abstandsmaß zwischen dem Verformungsbetrag des Standardmusters minimiert.
Bei einer Ausführungsform umfaßt das Mustererkennungsgerät: eine Funktionslern- Speichereinheit 5 als eine Basismuster-Speichereinrichtung zum Speichern eines Basismusters ähnlich wie eine Funktion Fi; eine Vorverarbeitungseinheit 3 als Vorbereitungseinrichtung zum Vorbereiten eines Eingangsmusters P(x, y) von der eingegebenen Information, beispielsweise Bilddaten I(x, y); eine Vergleichsverarbeitungseinheit 4 als Vergleichseinrichtung zum Vergleichen des eingegebenen Musters P(x, y), welches durch die Vorverarbeitungseinheit 3 vorbereitet wurde, mit dem Basismuster Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert ist, und zum Berechnen einer Deformationsmenge M(x, y) des eingegebenen Musters (x, y) zum Basismuster Fi(x, y); einen Programmverarbeitungsschritt S14 als Deformationseinrichtung zum Deformieren des Basismusters Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert ist, oder des eingegebenen Musters P(x, y), welches durch die Vorverarbeitungseinheit 3 vorbereitet wurde, auf der Basis der Deformationsmenge M(x, y), die von der Vergleichsverarbeitungseinheit 4 ausgegeben wird; und einen Programmverarbeitungsschritt S15 als eine Basismuster-Regeneriereinrichtung zum Regenerieren des Basismusters Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert ist, auf der Basis des Basismusters Fi(x, y), und des Eingangsmusters P(x, y), welches durch den Programmverarbeitungsschritt S14 verformt wurde.
Ein Mustererkennungsgerät gemäß diesem Merkmal der Erfindung kann aufweisen:
eine Funktionslern-Speichereinheit 5 als eine Basismuster-Speichereinrichtung zum Speichern eines Basismusters, beispielsweise eine Funktion Fi(x, y); eine Infonnationsspeichereinheit 7 einer Person als eine Standardmuster-Speichereinrichtung zum Speichern eines Standardmusters; eine Vorverarbeitungseinheit 3 als eine Vorbereitungseinrichtung zum Vorbereiten eines Eingangsmusters P(x, y) von der gelieferten Information, beispielsweise von den Bilddaten I(x, y); eine Vergleichsverarbeitungseinheit 4 als eine Vergleichseinrichtung zum Vergleichen des Eingangsmusters P(x, y), welches durch die Vorverarbeitungseinheit 3 vorbereitet wurde, mit einem Basismuster Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert ist und zum Berechnen zumindest einer Deformationsmenge M(x, y) des Eingangsmusters P(x, y) zum Basismuster Fi(x, y) unter der Deformationsmenge M(x, y) und beispielsweise einer Korrelationsmenge, beispielsweise eines Beitragsverhältnisses Xi; eine Deformationsmengen-Analyseeinheit 6 als eine Analyseeinrichtung zum Analysieren der Deformationsmenge M(x, y), die durch die Vergleichsverarbeitungseinheit 4 berechnet wurde; und Programmverarbeitungsschritte S31 bis S35 als eine Standardmuster-Regenerierungseinrichtung zum Regenerieren eines Standardmusters, welches in der Informationslern- Speichereinheit 7 des Person gespeichert ist, auf der Basis von zumindest einem Analyseergebnis Mtdr(x, y) von der Deformationsmengen-Analyseeinheit 6 unter dem Analyseergebnis Mtdr(x, y) und dem Beitragsverhältnis Xi; , welches durch die Vergleichverarbeitungseinheit 4 berechnet wurde.
Die Vorverarbeitungseinheit kann die Bilddaten I(x, y) mit einem LOG-Filter (Laplace- oder Gauß-Filter) filtern, um den Nulldurchgangspunkt zu ermitteln, und diese mit einem Tiefpaßfilter filtern.
Der Programmverarbeitungsschritt S15 kann das Basismuster FMAX(x, y) deformieren, welches den maximalen Beitragsgrad XMAX im Beitragsgrad Xi des Eingangsmusters P (x, y) zum Basismuster Fi(x, y) liefert.
Die Vergleichsverarbeitungseinheit 4 kann das Eingangsmuster P(x, y) an das Basismuster Fi(x, y) für jeden Block anpassen und den Bewegungsbetrag des Blocks als Verformungsmenge M(x, y) berechnen.
Vorzugsweise besteht die Informationslern-Speichereinheit 7 einer Person aus einem neuralen Netz.
Vorzugsweise regenerieren die Programmverarbeitungsschritte S31 bis S35 den Wichtungsfaktor des neuralen Netzes in der Informationslern-Speichereinheit 7 einer Person auf der Basis eines inversen Fehlerausbreitungsverfahrens.
Die Vorverarbeitungseinheit 3 kann das Eingangsmuster I(x, y) auf der Basis eines Bilds eines Gesichts vorbereiten.
Bei den Mustererkennungsgeräten nach der vorliegenden Erfindung kann ein Eingangsmuster P(x, y) auf der Basis von Bilddaten I(x, y) vorbereitet sein. Das Eingangsmuster P(x, y) kann dann mit einem Basismuster Fi(x, y) verglichen werden, welches in einer Funktionslern-Speichereinheit gespeichert ist, um eine Verformungsmenge M(x, y) des Eingangsmusters P(x, y) zum Basismuster Fi(x, y) zu berechnen.
Auf der Basis der Verformungsmenge M(x, y) kann das Basismuster Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert ist, oder das Eingangsmuster P(x, y) , welches durch die Vorverarbeitungseinheit 3 vorbereitet wurde, verformt werden. Somit kann das Basismuster Fi(x, y), welches in der Funktionslern-Speichereinheit 5 gespeichert wurde, auf der Basis des verformten Basismusters Fi(x, y) und des Eingangsmusters P(x, y) regeneriert werden. Da folglich das Basismuster Fi(x, y) so regeneriert wurde, daß es ähnlich dem Eingangsmuster P(x, y) ist, ist es nicht erforderlich, daß das Basismuster Fi(x, y) für jedes Erkennungsobjekt vorbereitet werden muß. Damit ist es möglich, die Speicherkapazität der Funktionslern-Speichereinheit 5 zum Speichern des Basismusters Fi(x, y) zu reduzieren und dadurch die Baugröße des Geräts klein zu machen. Außerdem kann das Erkennungsverhältnis verbessert werden.
Zusätzlich kann bei den Mustererkennungseinrichtungen nach der vorliegenden Erfindung das Eingangsmuster mit dem Basismuster Fi(x, y) verglichen werden, welches in der Funktionslern-Speichereinheit 5 gespeichert ist, um die Verformungsmenge M(x, y) des Eingangsmusterns P(x, y) gegenüber dem Basismuster Fi(x, y) zu berechnen. Die Verformungsmenge M(x, y) kann analysiert werden, und die parallele Bewegungskomponente, die Drehbewegungskomponente und die Vergrößerungs-/Verkleinerungskomponente des Eingangsmusters P(x, y), die in der Verformungsmenge M(x, y) enthalten sind, können beseitigt werden. Damit kann auf der Basis einer neuen Verformungsmenge Mtdr(x, y) ein Standardmuster, welches in der Informationslern-Speichereinheit 7 einer Person gespeichert ist, regeneriert werden. Somit ist es möglich, das Erkennungsverhältnis zu verbessern.
Damit liefern die Ausführungsformen der Erfindung Mustererkennungsgeräte, die miniaturisiert sind und die verbesserte Erkennungsverhältnisse haben.
Ausführungsformen der Erfindung werden anschließend beispielhaft mit Hilfe der beiliegenden Zeichnungen beschrieben, in denen:
Fig. 1 eine Blockdarstellung ist, die en Aufbau einer Ausführungsform eines Bilderkennungsgerät zeigt, bei dem ein Mustererkennungsgerät nach der vorliegenden Erfindung angewandt wird;
Fig. 2 ein Flußdiagramm ist, um die Funktion einer Vorverarbeitungseinheit 3 der Ausführungsform von Fig. 1 zu erläutern;
Fig. 3 eine Ansicht ist, um ein Verfahren zum Berechnen einer Verformungsmenge M(x, y) in einer Vergleichsverarbeitungseinheit der Ausführungsform von Fig. 1 zu erläutern;
Fig. 4 ein Flußdiagramm ist, um die Funktion einer Funktionslern-Speichereinheit der Ausführungsform von Fig. 1 zu erläutern;
Fig. 5 eine Ansicht ist, die ein Eingangsmuster P(x, y) und eine Funktion Fi(x, y) zeigt, die in der Funktionslern-Speichereinheit von Fig. 1 verformt wurden;
Fig. 6 ein Flußdiagramm ist, um die Funktion einer Verformungsmengen-Analyseeinheit der Ausführungsform von Fig. 1 zu erläutern;
Fig. 7 ein Flußdiagramm ist, um die Funktion einer Informationslern-Speichereinheit einer Person der Ausführungsform von Fig. 1 zu erläutern;
Fig. 8 ein Blockdiagramm ist, welches den Aufbau eines Beispiels eines vor kurzem vorgeschlagenen Bilderkennungsgeräts zeigt;
Fig. 9 eine Ansicht ist, die ein Drahtrahmenmodell zeigt; und
Fig. 10 eine Ansicht ist, um ein Verfahren zu erläutern, bei dem das Gesicht einer Person durch Modellbasiscodieren erkannt wird.
Fig. 1 ist eine Blockdarstellung, die den Ausbau einer Ausführungsform von Bilderkennungsgeräten nach der vorliegenden Erfindung zeigt. Eine Videokamera 1 besitzt eine CCD, welche ein Licht, welches zum Fotografieren des Gesichts einer Person oder dgl. verwendet wird, in ein Bildsignal eines Gesichts als elektrisches Signal umsetzt. Eine Speichereinheit 2 besteht aus einem RAM und einen A/D-Umsetzer (nicht gezeigt), der das Bildsignal des Gesichts, welches von der Videokamera 1 geliefert wird, beispielsweise in acht Bits mittels des A/D-Umsetzers quantisiert und Digitalsignale (Bilddaten des Gesichts), beispielsweise die zweidimensionale Luminanzinformation I(x, y) auf der xy- Ebene im RAM für jeden Rahmen temporär speichert.
Eine Vorverarbeitungseinheit 3 führt beispielsweise die Flankenermittlung für das Bildsignal I(x, y) des Gesichts durch, welches in der Speichereinheit 2 gespeichert ist und nimmt ein Eingangsmuster P(x, y) als charakteristischen Betrag der Gesichtsbilds heraus [Gesichtsbilddaten I(x, y)] und liefert diese zu einer Vergleichsverarbeitungseinheit 4.
Die Vergleichsverarbeitungseinheit 4 berechnet das Basismodell des charakteristischen Betrags P(x, y) der Gesichtsbilddaten I(x, y), die in einer Funktionslern-Speichereinheit 5 gespeichert sind, beispielsweise einen Beitragsgrad Xi als Korrelationsmenge des Eingangsmusters P(x, y) der Gesichtsbilddaten I(x, y), die von der Vorverarbeitungseinheit 3 geliefert werden, beispielsweise für alle Funktionen Fi(x, y) (i = 1, 2, 3, . . . r9 von r Abschnitten. Die Einheit 4 ermittelt den maximalen Beitragsgrad XMAX als Maximalwert im Beitragsgrad Xi , und berechnet weiter einen Verformungsbetrag M(x, y) als Differenzinformation zwischen einen Funktion Fmax(x, y), was den maximalen Beitragsgrad XMAX (MAX ist eine der Zahlen von 1 bis r) und das Eingangsmuster P(x, y) ergibt. Sie liefert den Verformungsbetrag M(x, y) zur Funktionslern-Speichereinheit 5 und zu einer Verformungsanalyseeinheit 6.
Die Funktionslern-Speichereinheit 5 besteht beispielsweise aus einem neuralen Netz. Sie speichert die Funktionen Fi(x, y) (i = 1, 2, 3, . . . r) von r Abschnitten als Basismodel des charakteristischen Betrags P(x, y) der Gesichtsbilddaten I(x, y).
Weiter verformt die Funktionslern-Speichereinheit 5 die Funktion FMAX(x, y), was der maximalen Beitragsgrad XMAX ergibt, der durch die Vergleichsverarbeitungseinheit 4 ermittelt wird, oder das Eingangsmuster P(x, y), wobei die Verformungsmenge M(x, y) verwendet wird, die in der Vergleichsverarbeitungseinheit 4 berechnet wurde. Somit regeneriert auf der Basis der Verformungsfunktion FMAX und der verformten Eingangsmusters P'(x, y) auf der xy-Ebene die Einheit 5 die Funktion FMAX(x, y), die dort gespeichert ist.
Die Verformungsbetrags-Analyseeinheit 6 analysiert den Verformungsbetrag M(x, y) , der durch die Vergleichsverarbeitungseinheit 4 berechnet wurde. Somit entfernt die Einheit 6 die Komponenten des Bilds des Gesichts einer Person, welches durch die Videokamera 1 als Eingangsmuster P(x, y) aufgenommen wurde, in bezug auf die vertikale oder horizontale Abweichung auf dem Bildschirm, die Positionsabweichung aufgrund der Drehung oder dem Unterschied in der Größenordnung aufgrund des Vergrößerungs-/Verkleinerungsverhältnisses der Videokamera 1, die im Verformungsbetrag M(x, y) enthalten sind. Sie gibt einen neuen Verformungsbetrag Mtdr(x, y) an eine Informationslern-Speichereinheit 7 einer Person aus.
Die Informationslern-Speichereinheit 7 einer Person speichert, wenn das Gerät in einem Lernmodus sich befindet, den neuen Verformungsbetrag Mtdr(x, y), der von der Ver formungsmengen-Analyseeinheit 6 ausgegeben wird, in einem Speicher (nicht gezeigt), der darin enthalten ist, gemäß der Information der Person K(t), die die Funktion der Anzahl t ist, die der Person (Gesicht) gegeben ist (t = 1, 2, . . ., T; T ist die Anzahl der Gesichter von Personen), als Erkennungsergebnis. In diesem Fall wird beispielsweise ein Durchschnittswert mehrerer Verformungsmengen Mtdr(x, y), Mtdr'(x, y), Mtdr"(x, y), Mtdr'''(x, y), . . . im Gesichtsbild der gleichen Person t als Personeninformation K(t) hergenommen.
Die Informationslern-Speichereinheit 7 einer Person speichert, wenn sich das Gerät im Lernmodus befindet, den Verformungsbetrag Mtdr(x, y) selbst einer Person (t), die von der Verformungsbetrags-Analyseeinheit 6 als Information der Person ausgegeben wird. Jedes Mal, wenn der Verformungsbetrag Mtdr(x, y) der gleichen Person t geliefert wird, regeneriert die Einheit 7 die Information K(t) der Person auf der Basis des Verformungsbetrags Mtdr(x, y).
Außerdem berechnet die Informationslern-Speichereinheit 7 der Person, wenn das Gerät in einem Erkennungsmodus sich befindet, die Euklidische Entfernung zwischen dem Verformungsbetrag Mtdr(x, y), der von der Verformungsbetrags-Analyseeinheit 6 ausgegeben wird, und eine bestimmte Personeninformation K(t), die vorher in dem Speicher gespeichert wurde, der darin untergebracht ist, und gibt die Anzahl t in der Personeninformation K(t), wobei die Abstände minimiert sind, als Erkennungsergebnis aus.
Die Wirkungsweise des Mustererkennungsgeräts nach dieser Ausführungsform wird anschließend beschrieben. Wenn das Gerät im Lernmodus ist, wird in der Videokamera 1 das Licht, welches zum Fotografieren des Gesichts oder dgl. einer Persona verwendet wird, in ein Gesichtsbildsignal als elektrisches Signal umgesetzt und an eine Speichereinheit 2 ausgegeben. In der Speichereinheit 2 wird das Gesichtsbildsignal (Analogsignal), welches von der Videokamera 1 ausgegeben wird, quantisiert, beispielsweise in acht Bits in einem A/D- Umsetzer, der dort untergebracht ist, und die zweidimensionale Luminanzinformation I(x, y) auf der xy-Ebene als Digitalsignale (Gesichtsbilddaten) wird in einem RAM, der darin enthalten ist, für jeden Rahmen temporär gespeichert.
In der Vorverarbeitungseinheit 3 werden die Gesichtsbilddaten I(x, y), die in der Speichereinheit 2 gespeichert sind, gelesen, es wird die Flankenermittlung oder dgl. durchgeführt und ein Eingangsmuster P(x, y) als charakteristischer Betrag des Gesichtsbilds [Gesichtsbilddaten I(x, y)] wird herausgenommen.
In der Vorverarbeitungseinheit 3 werden, wie im Flußdiagramm von Fig. 2 gezeigt ist, zunächst in einem Schritt S1 die Gesichtsbilddaten I(x, y) mit einem LOG-Filter (Laplace- oder Gaußfilter) gefiltert, um den Flankenbereich des Gesichtsbilds herauszunehmen, und ein Flankensignal IE(x, y) wird somit berechnet (die Flanke wird ermittelt), d. h. im Schritt S1 kann das Flankensignal dadurch erhalten werden, daß die Frequenzkenngröße der Gesichtsbilddaten I(x, y) mit der Frequenzkenngröße des LOG-Filters multipliziert wird. Bei dieser Ausführungsform wird das Flankensignal IE(x, y) durch zweidimensionale Faltung der Gesichtsbilddaten I(x, y) mit einer Impulsantwort FLOG (x, y) erhalten, wie in der Gleichung (1-1) gezeigt ist:
Außerdem ist σ eine spezifische Konstante, die gemäß der Größe des LOG- Filters festgesetzt wird.
Die Verarbeitung läuft weiter zu einem Schritt 2, wo beurteilt wird, ob das Produkt eines Flankensignals IE(xi, yj) an einem Punkt (xi, yj) und eines Flankensignals IE(xi&sbplus;&sbplus;&sub1;, yj) an einem Punkt (xi&sbplus;&sub1;, yj), der vom Punkt (xi, yj) in der x-Richtung um ein Bildelement bewegt wurde, innerhalb des Gesichtsbilds, welches von den Videokamera 1 ausgegeben wird, negativ ist oder nicht, d. h. innerhalb des Bereichs von Xo ≤ xi ≤ X1, Yo ≤ yi ≤ Y1 auf der xy-Ebene.
Hier sei kurzgefaßt angenommen, daß das Gesichtsbild, welches von der Videokamera 1 zur Vorverarbeitungseinheit 3 über die Speichereinheit 2 geliefert wird, aus den Bildelementen von N Abschnitten für die vertikale und die horizontale Richtung besteht. Weiter wird der Punkt (Xo, Yo) auf der xy-Ebene als Nullpunkt (0, 0) genommen. Folglich sei angenommen, daß X1 = Y1 = N - 1.
Im Schritt S2 wird, wenn beurteilt wird, daß das Produkt eines Flankensignals IE (xi, yj) an einem Punkt (xi, yj) und eines Flankensignals IE(xi&sbplus;&sub1;, yj) an einem Punkt (xi&sbplus;&sub1;, yj), der vom Punkt (xi, yi) in der x-Richtung um ein Bildelement bewegt ist, negativ ist, d. h., wenn der Code des Flankensignals IE(xi, yj) an einem Punkt (xi, yj) gegenüber dem Code des Flankensignals IE(xi&sbplus;&sub1;, yj) an einem Punkt (xi&sbplus;&sub1;, yj) verschieden ist, der vom Punkt (xi, yj) in der x- Richtung bewegt wurde, läuft die Verarbeitung weiter zu einem Schritt S7, wo beurteilt wird, daß der Nullpunktdurchgang zwischen dem Punkt (xi, yj) und dem Punkt (xi&sbplus;&sub1;, yj) erzeugt wurde. Somit wird beispielsweise der Wert 1, der die Erzeugung des Nullpunktdurchgangs zeigt, in einer Nulldurchgangspunktfunktion Pc(xi&sbplus;&sub1;, yj) gesetzt und die Verarbeitung läuft weiter zum Schritt S5.
Im Schritt S2 läuft, wenn das Produkt des Flankensignals IE(xi, yj) am Punkt (xi, yj) und des Flankensignals IE(xi&sbplus;&sub1;, yj) am Punkt (xi&sbplus;&sub1;, yj), der vom Punkt (xi, yj) in der x- Richtung um ein Bildelement bewegt wurde, beurteilt wird, nicht negativ zu sein, die Verarbeitung weiter zu einem Schritt S3, wo beurteilt wird, ob das Produkt eines Flankensignals IE (xi, yj) an einem Punkt (xi, yj) und eines Flankensignals IE(xi, yj&sbplus;&sub1;) an einem Punkt (xi, yj&sbplus;&sub1;), der vom Punkt (xi, yj) in der y-Richtung um ein Bildelement bewegt wurde, negativ ist oder nicht.
Im Schritt S3 läuft, wenn beurteilt wird, daß das Produkt eines Flankensignals IE (xi, yj) an einem Punkt (xi, yj) und eines Flankensignals IE(xi, yj&sbplus;&sub1;) an einem Punkt (xi, yj&sbplus;&sub1;), der vom Punkt (xi, yj) in der y-Richtung um ein Bildelement bewegt wurde, negativ ist, d. h. wenn der Code des Flankensignals IE(xi, yj) an einem Punkt (xi, yj) gegenüber dem Code des Flankensignals IE(xi, yj&sbplus;&sub1;) an einem Punkt (xi, yj&sbplus;&sub1;), der vom Punkt (xi, yj) in der y-Richtung um ein Bildelement bewegt wurde, verschieden ist, läuft die Verarbeitung zum Schritt S7 weiter, wobei der Wert 1 in der Nulldurchgangsfunktion Pc(xi, yj) gesetzt wird, wie oben beschrieben, und die Verarbeitung läuft weiter zum Schritt S5.
Im Schritt S3 läuft, wenn beurteilt wird, daß das Produkt des Flankensignals IE(xi, yj) am Punkt (xi, yj) und des Flankensignals IE(xi, yj&sbplus;&sub1;) am Punkt (xi, yj&sbplus;&sub1;), der vom Punkt (xi, yj) in der y-Richtung um ein Bildelement bewegt wurde, nicht negativ ist, die Verarbeitung weiter zu einem Schritt S4, wo beurteilt wird, daß der Nullpunktdurchgang zwischen dem Punkt (xi, yj) und dem Punkt (xi&sbplus;&sub1;, yj) oder dem Punkt (xi, yj&sbplus;&sub1;) nicht erzeugt wurde. Das heißt, daß der Wert 0, der zeigt, daß keine Erzeugung des Nulldurchgangs beispielsweise in der Nulldurchgangsfunktion Pc(xi, yj) gesetzt ist und das Verfähren weiter zum Schritt S5 läuft.
Außerdem werden die Verarbeitungen vom Schritt S2 bis zum Schritt S4 und des Schritts S7 für den Punkt durchgerührt, der jedem Bildelement innerhalb des Gesichtsbildschirms auf der xy-Ebene entspricht (jeder Punkt (xi, y,) im Bereich von 0 ≤ xi ≤ N - 1, 0 ≤ yj ≤ N - 1).
Durch Berechnung der Funktion Pc(xi, yj), die den Nulldurchgangspunkt der Flanke des Gesichtsbilds in der oben beschriebenen Weise zeigt, d. h. durch Ermitteln des Nulldurchgangspunkts der Flanke des Gesichtsbilds ist es möglich, den Effekt aufgrund der Beleuchtung oder dgl. zu beseitigen, wenn das Gesichtsbild durch die Videokamera 1 fotografiert wird.
Die Verarbeitung läuft weiter zum Schritt S5, wo die Nulldurchgangsfunktion Pc (x, y) mit einem Tiefpaßfilter, beispielsweise mit einem Gauß-Filter gefiltert wird, so daß das Gesichtsbildmuster, welches durch die Nulldurchgangsfunktion Pc(x, y) dargestellt wird, in das sogenannte Schwund-Gesichtsbildmuster umgesetzt wird, und das Eingangsmuster P(x, y) als charakteristischer Betrag des Gesichtsbilds, welches durch die Videokamera 1 fotografiert wurde, wird berechnet, d. h. im Schutt S5 kann das Eingangsmuster P(x, y) als charakteristischer Betrag des Gesichtsbildes, welches durch die Videokamera 1 fotografiert wurde, durch Multiplizieren der Frequenzkenngröße der Nulldurchgangsfunktion Pc(x, y) mit der Frequenzkenngröße des Gauß-Filters erhalten werden. Bei dieser Ausführungsform wird das Eingangsmuster P(x, y) durch zweidimensionales Falten der Nulldurchgangsfunktion Pc(x, y) mit einer Impulsantwort FG (x, y) des Gauß-Filter erreicht, wie in der Gleichung (1-2) gezeigt ist:
Zusätzlich wird σ als eine spezifische Konstante gemäß der Größe des Gauß-Filters wie beim LOG-Filter im Schritt S1 gewählt.
Durch die Verarbeitung im Schritt S5 wird ein Glätten bei der Änderung des Beitragsgrades X&sub1; des Eingangsmusters P(x, y) gegenüber der Funktion Fi(x, y) erzielt, die in der Funktionslern-Speichereinheit 5 gespeichert ist, welche durch eine Vergleichsverarbeitungseinheit 4 ermittelt wird, was später beschrieben wird, wodurch es möglich wird, die Funktion FMAX(x, y) leicht zu ermitteln, die den maximalen Beitragsgrad XMAX ergibt.
Das Eingangsmuster P(x, y), welches im Schritt S5 berechnet wurde, wird an die Vergleichsverarbeitungseinheit 4 im Schritt 6 ausgegeben, wodurch die Verarbeitung beendet ist.
Wie oben beschrieben wird das Eingangsmuster P(x, y) als charakteristischer Betrag des Gesichtsbilds auf der Basis der Gesichtsbilddaten I(x, y) in der Vorverarbeitungseinheit 3 vorbereitet.
In der Vergleichsverarbeitungseinheit 4 wird die Korrelationsmenge des Eingangsmusters P(x, y), das in der Vorverarbeitungseinheit 3 vorbereitet wurde, beispielsweise der Beitragsgrad Xi gegenüber der Funktion Fi(x, y) (i = 1, 2, . . . r; r ist eine bestimmte Zahl) als Basismuster, welches in der Funktionslern-Speichereinheit 5 gespeichert wurde, berechnet, und der maximale Beitragsgrad XMAX, der der Maximalwert ist, wird ermittelt.
Hier ist der Beitragsgrad Xi des Eingangsmusters P(x, y) zur Funktion Fi(x, y) die orthogonale Projektion des Eingangsmusters P(x, y) zur Funktion Fi(x, y), was bedeutet, daß das Innenprodukt aus der Funktion Fi(x, y) und dem Eingangsmuster P(x, y) gemäß der Gleichung (2-1) berechnet wird:
Außerdem ist, wie oben beschrieben, N die Anzahl der Bildelemente für die vertikale und die horizontale Richtung des Bildschirms im Gesichtsbild, welches von der Videokamera 1 zur Vorverarbeitungseinheit 3 über die Speichereinheit 2 ausgegeben wird.
In der Vergleichsverarbeitungseinheit 4 ist das Eingangsmuster P(x, y), welches von der Vorverarbeitungseinheit 3 ausgegeben wird, an die Funktion FMAX(x, y) angepaßt, was den maximalen Beitragsgrad XMAX für jeden Block ergibt (MAX ist ein Wert xi mit i = 1 bis r), und der Verformungsbetrag M(x, y) [M'(x, y)] des Eingangsmusters P(x, y) [Funktion FMAX (x, y) wird in dem Fall berechnet, daß das Eingangsmuster P(x, y) [Funktion FMAX(x, y)] verformt werden muß, damit es mit der Funktion FMAX(x, y) übereinstimmt [Eingangsmuster P (x, y)]
In der Vergleichsverarbeitungseinheit 4 wird zunächst die Funktion FMAX(x, y) in B Blöcke FBK(xK, yK) (k = 0, 1, 2, . . . B-1), die aus b Bildelementen bestehen, für die vertikale Richtung und die horizontale Richtung unterteilt, wie in Fig. 3a gezeigt ist. Zusätzlich zeigt der Punkt (xk, yk) den Koordinatenpunkt der Mitte des Blocks FBk(xk, yk).
Anschließend werden Blöcke PB(xi, yj), die den Mittelkoordinatenpunkt (xi, yj) haben, welche aus b Bildelementen für die vertikale und die horizontale Richtung bestehen, auf dem Eingangsmuster P(x, y) betrachtet. Somit wird der Bewegungsbetrag (mxk, myk) des Blocks FBk(xk, yk) so ermittelt, daß der Block FBk(xk, yk) vom Mittelpunkt (xk, yk) auf dem Eingangsmuster P(x, y) innerhalb des Bereichs von ±S Bildelementen in der x-Richtung oder m der Y-Richtung bewegt wird, und ist fast ähnlich von PB(xi, yj) auf dem Eingangsmuster P (x, y).
In der Vergleichseinheit 4 wird nämlich der Verformungsbetrag M(x, y) wie der Bewegungsbetrag (mxk, myk) berechnet (ermittelt), mit welchem das Beitragsverhältnis XMAX(k) des Blocks PB(xk + mxk, yk + myk) für jeden Block (xK, yk) zum Maximalwert wirt, wie in der Gleichung (2-2) gezeigt ist:
XMAX (k) = < FB(Xk, yk), PB(xk + mxk, yk + myk) > (2-2)
wobei < a, b> das Innenprodukt der Vektoren a bzw. b zeigt, und folglich gilt:
wobei [u] die maximale ganze Zahl ist, die den Wert u nicht übersteigt, d. h. [yK + b/2], [yK - b/2], [xK - b/2] und [xK - b/2] werden auf ganze Werte aufgerundet.
Hier wird anschließend für den Fall, daß der Block FB (xk, yk) mit der Mitte des Punkts (xk, yk) dem Block PB(xi, yj) auf dem Eingangsmuster am ähnlichsten ist, der Bewegungsbetrag M(mxk, myk) des Blocks FBk(xk, yk) durch einen Verformungsbetrag M(xk, y&sub1;) dargestellt, und der Satz der Verformungsbeträge M(xK, yK) für das gesamte Bild wird durch einen Verformungsbetrag M(x, y) dargestellt.
Der durch die Vergleichsverarbeitungseinheit 4 berechnete Verformungsbetrag M (x, y) wird zur Funktionslern-Speichereinheit 5 und zur Verformungsbetrag-Analyseeinheit 6 geliefert.
In der Funktionslern-Speichereinheit 5 werden unter Verwendung des Verformungsbetrags M(x, y), der durch die Vergleichsverarbeitungseinheit berechnet wurde, die Funktion FMAX(x, y), die den maximalen Beitragsgrad XMAX ergibt, der durch die Vergleichsverarbeitungseinheit 4 ermittelt wurde, und das Eingangsmuster P(x, y) verformt. Damit wird die Funktion FMAX(x, y), die darin gespeichert ist, auf der Basis der Verformungsfunktion FMAX'(x, y) und des Verformungseingangsmuster P'(x, y) auf der xy-Ebene regeneriert.
In der Funktionslern-Speichereinheit 5 wird, wie im Flußdiagramm von Fig. 4 gezeigt ist, zunächst in einem Schritt S11, wenn der Verformungsbetrag M(x, y) [M(xk, yk) = gesetzt aus (mxk, myk)] als Satz des Bewegungsbetrags (mxk, myk) des Blocks P(x, y) von der Vergleichsverarbeitungseinheit 4 eingegeben wird, in einem Schritt S12 der Bewegungsbetrag (-mxk, -myk) des Blocks PB(xi, yj) [ = PB(xk + mxk, yk + myk)] in dem Fall, daß der Block PB (xi, yj) auf dem Eingangsmuster P(x, y) dem Block FBk(xk, yk) am ähnlichsten ist, berechnet, der auf eine Variable M'(xk + mxk, yk + myk) gesetzt wird, die den Bewegungsbetrag (-mxk, - myk) zeigt.
Die Verarbeitung läuft weiter zum Schritt S13, wo der Satz Mp(x, y) eines aktiven Verformungselements Mp(xk, yk) zum Verformen des Eingangsmusters P(x, y) und der Satz MF(x, y) von MF(xK + mXK, yK + mYK) zum Verformen der Funktion FMAX(x, y) entsprechend gemäß der folgenden Gleichungen berechnet werden und die Verarbeitung weiter zu einem Schritt S14 läuft.
MP(Xk, yk = A · M(xk, yk)
MF(xk + mxk, yk + mxk)
= (1 - A) · M'(xk + mxk, yk + mxk)
wobei A eine Konstante innerhalb des Bereichs von 0 ≤ A ≤ 1 ist, die von dem kleinen Wert zum großen Wert regeneriert wird, wenn das Lernen der Funktion Fi in der Funktionslern- Speichereinheit fortschreitet.
Im Schritt S14 werden unter der Annahme, daß das aktive Verformungselement Mp (x, y) und MF(x, y)
Mp(x, y) = (d1x, d1y) und
MF(x, y) = (d2x, d2y) sind,
das Eingangsmuster P(x, y) und die Funktion FMAX(x, y) gemäß der folgenden Gleichung verformt:
P'(x, y) = P(x + d1x, y + d1y) and
FMAX'(x, y) = FMAX(x + d2x, y + d2y)
Das verformte Eingangsmuster P' (x, y) wird, wie in Fig. 5a gezeigt ist, und die Verformungsfunktion FMAX(x, y) wird, wie in Fig. 5b gezeigt ist, berechnet, und die Verarbeitung läuft weiter zu einem Schritt S15.
Im Schritt S15 wird eine Funktion Fi(x, y) als Funktion FMAX(x, y), die dem Lernen gemäß der Gleichung (2-3) unterworfen wurde, auf der Basis des neuen Eingangmusters P' (x, y) und der neuen Funktion FMAX'(x, y) berechnet und in der Funktionslern-Speichereinheit 5 anstelle der Funktion FMAX(x, y) gespeichert, wodurch die Verarbeitung beendet ist.
wobei å eine spezielle Zahl innerhalb des Bereichs von 0 < å < 1 ist.
Dagegen wird der Verformungsbetrag M(x, y), der von der Vergleichsverarbeitungseinheit 4 zur Verformungsanalyseeinheit 6 geliefert wird, dort analysiert. Damit werden die Komponenten des Bilds des Gesichtes einer Person, welches durch die Videokamera 1 fotografiert wurde, als Eingangsmuster P (x, y) in bezug auf die vertikale oder horizontale Abweichung auf dem Bildschirm (parallele Bewegungskomponente), die Positionsabweichung aufgrund der Drehung (Drehbewegungskomponente) oder eine Komponente in bezug auf die Differenz bezüglich der Größenordnung aufgrund eines Vergrößerungs- /Verkleinerungsverhältnisses des Videokamera 1, die in dem Verformungsbetrag M (x, y) enthalten sind, beseitigt. Somit wird ein neuer Verformungsbetrag Mtdr(x, y) an die Informationslern-Speichereinheit 7 einer Person ausgegeben.
In der Verformungsmengen-Analyseeinheit 6 wird, wie im Fußdiagramm von Fig. 6 gezeigt ist, in einem Schritt S21 die Parallelbewegungskomponente T, die im Eingangsmuster P(x, y) enthalten ist, durch die folgende Gleichung berechnet:
Damit läuft die Verarbeitung weiter zu einem Schritt S22, wo ein Verformungsbetrag Mt(x, y), von dem die Parallelbewegungskomponente T beseitigt ist, auf der Basis des Verformungsbetrags M(x, y) gemäß der folgenden Gleichung berechnet, und die Verarbeitung läuft weiter zu einem Schritt S23:
Mt(x, y) = M(x, y)-T (3-2)
Im Schritt S23, wo die Komponente D in bezug auf die Differenz bei der Größenordnung, die in dem Eingangsmuster P(x, y) enthalten ist (Komponente in bezug auf das Vergrößeixings-/Verldeinerungsverhältnis) berechnet wird, gilt:
wobei r(x, y) = (x - x0, y - y0), und (x0, y0) ist die Mitte des Gesichtsbilds, d. h., (x0, y0) = (N/2, N/2).
Danach läuft die Verarbeitung weiter zu einem Schritt S24, wo ein Verformungsbetrag Mtd(x, y), der durch Beseitigen der Komponente D in bezug auf das Vergrößerungs- /Verkleinerungsverhältnisses vom Verformungsbetrag Mt(x, y) erhalten wird, gemäß der folgenden Gleichung berechnet wird:
Mtd(x, y) = Mt(x, y) + δMd(x, y) (3-4)
wobei ä Md(x, y) durch die folgende Gleichung definiert ist:
Es sei angenommen, daß ä Md(x, y) durch die folgende Gleichung dargestellt wird:
ä Md(x, y) = r(x, y)
( ist eine Zahl innerhalb des Bereichs von 0 ≤ ≤ Ü,
¥ä Md(x, y) erfordert, da M(x, y) in der Gleichung (3-3) durch [M(x, -y) + ¥ä Md(x, y)] ersetzt wird, so da die Komponente D in bezug auf das -Vößerungs-/Verkleinerungsverhältnisses zu Null wird, und das Ersetzen der Komponente D in bezug auf das Vergrößerungs-/Verkleinerungsverhältnis durch Null.
In einem Schritt S25 wird die Drehbewegungskomponente (Neigungskomponente) R, die im Eingangsmuster P(x, y) enthalten ist, durch die folgende Gleichung berechnet:
wobei M(x, y) · (x, y) das Außenprodukt des Vektors M(x, y) und des Vektors r (x, y) zeigt.
Die Verarbeitung läuft weiter zu einem Schritt S26, wo ein Verformungsbetrag Mtdr(x, y), der durch Beseitigen der Drehbewegungskomponente R vom Verformungsbetrag Mtd (x, y) erhalten wird, durch die folgende Gleichung berechnet wird, und die Verarbeitung weiter zum Schritt S27 läuft:
Mtdr(x, y) = Mtd(x, y) + ä Mr(x, y) (3-6)
wobei ä Mr(x, y) durch die folgende Gleichung definiert ist:
wobei s(x, y) = [-(y - y0), x - x0]
Es sei angenommen, daß ä Mr(x, y) durch die folgende Gleichung:
ä Mr(x, y) = ä s(x, y) dargestellt werden kann.
Für ¥ä Mr (x, y) ist es erforderlich, da M(x, y) in der Gleichung (3-5) -durch [M(x, y) + ¥ä Mr(x, y) ersetzt wird, so da die Drehbewegung R zu Null -wird, und da die Drehbewegungskomponente R durch Null ersetzt w Wie oben -beschrieben wird der neue Verformungsbetrag Mtdr(x, y), von dem die Parallelbewegungskomponente T, die Komponente D in bezug auf das Vergrößerungs-/Verkleinerungsverhältnis und die Drehbewegungskomponente R beseitigt wurden, an die Informationslern-Speichereinheit 7 in einem Schritt S27 ausgegeben wodurch die Verarbeitung beendet ist.
Die obige Verarbeitung wird für jeden Verformungsbetrag M(xk, yk) (k = 0, 1, . . . B-1) für alle Blöcke, die in B Abschnitte in der Funktion F&sub1;(x, y) unterteilt sind, in der Vergleichsverarbeitungseinheit 4 als bildendes Element des Verformungsbetrags M(x, y) durchgeführt.
Folglich wird in der Verformungsbetrag-Analyseeinheit 6 der neue Verformungsbetrag Mtdr(xk, yk) zum Verformungsbetrag M(xk, yk) aller Blöcke k (k 0, 1, . . . B-1), die in B Abschnitte unterteilt sind, in der Funktion F&sub1;(x, y) (FMAX(x, y)) in der Vergleichsverarbeitungseinheit 4 berechnet.
In dieser Anmeldung wird nämlich der Satz des neuen Verformungsbetrags Mtdr (xk, yk) zum Verformungsbetrag M(xk, yk) aller Blöcke, die in B Abschnitte unterteilt sind, in der Funktion Fi(x, y) [FMAX(x, y)] in der Vergleichsverarbeitungseinheit 4 als der neue Verformungsbetrag Mtdr(x, y) beschrieben.
Da weiter der Verformungsbetrag Mtdr(xk, yk) ein zweidimensionaler Vektor ist, kann der neue Verformungsbetrag Mtdr(x, y) als Satz der Verformungsbeträge Mtdr(xk, yk) als ein 2B-dimensionaler Vektor angesehen werden.
Wenn die Verarbeitung in der Verformungsbetrag-Analyseeinheit 6 beendet ist, wird in der Informationslern-Speichereinheit 7 der neue Verformungsbetrag Mtdr(x, y), der durch die Verformungsbetrag-Analyseeinheit 6 berechnet wurde, im Speicher, der darin enthalten ist, gemäß der Information K(t) der Person (Standardmuster) gespeichert, wobei die Funktion der Zahl t (t = 1, 2, . . . T; T ist die Anzahl der Gesichter von Personen), die der Person (dem Gesicht) gegeben wird, das Erkennungsergebnis ist.
In der Informationslern-Speichereinheit 7 einer Person wird, wie im Flußdiagramm von Fig. 7 gezeigt ist, zunächst in einem Schritt S31, wenn die Zahl t, die der Person (Gesicht) zügeteilt ist, eingegeben wird, die Information K(t) der Person als Standardmuster vom Speicher, der in der Informationslern-Speichereinheit 7 der Person enthalten ist, in einem Schritt S32 gelesen, und die Verarbeitung läuft weiter zu einem Schritt S33.
Im Schritt S33 wird, da der Verformungsbetrag Mtdr(x, y) von der Verformungsbetrag-Analyseeinheit 6 zur Informationslerneinheit 7 der Person geliefert wird, die Information K(t) der Person in einem Schritt S34 auf der Basis des Verformungsbetrags Mtdr(x, y) gemäß der folgenden Gleichung regeneriert:
K(t : 2k) = K(t : 2k) + a · Mtdrx(xk, yk)
K(t : 2k + 1) = K(t : 2k + 1) + a · Mtdry(xk, yk)
wobei k = 0, 1, . . . B1.
Hier zeigen Mtdrx(xk, yk) oder Mtdry(xk, yk0 die x-Komponente oder die y-Komponente auf der xy-Ebene des neuen Verformungsbetrags MTdr(xk, yk) im Block (Fig. 3a) der Funktion F&sub1;(x, y) mit der Mitte des Punkts (xk, yk).
Da der neue Verformungsbetrag Mtdr(x, y) ein 2B-dimensionaler Vektor, wie oben beschrieben, ist, ist die Information K(t) der Person einem 2B-dimensionalen Vektor ähnlich. K(t : 2k) und K(t : 2k + 1) zeigen die 2k-ten bzw. die (2k + 1)-ten Elemente der Information K(t) einer Person.
Außerdem ist a einen spezielle Konstante innerhalb des Bereichs von 0 < a < 1.
Die Verarbeitung läuft weiter zu einem Schritt S35, wo K(t), welches im Schritt S34 regeneriert wurde, im Speicher gespeichert wird, der in der Informationslern-Speichereinheit 7 einer Person enthalten ist, wodurch die Verarbeitung beendet wird.
Wenn das Gerät im Erkennungsmodus ist, wird dann in der Videokamera 1, der Speichereinheit 2, der Vorverarbeitungseinheit 3, der Vergleichsverarbeitungseinheit 4, der Funktionslern-Speichereinheit 5 oder der Verformungsbetrag-Analyseeinheit 6 die gleiche Verarbeitung wie oben beschrieben durchgeführt, und der neue Verformungsbetrag Mtdr(x, y) wird zur Informationslern-Speichereinheit 7 einer Person geliefert. Folglich wird in der Informationslern-Speichereinheit 7 einer Person die Euklidische Entfernung zwischen dem Verformungsbetrag Mtdr(x, y) und einer bestimmten Personeninformation K(t), die im darin enthaltenen Speicher gespeichert ist, berechnet, und es wird die Zahl (t) in der Personeninformation K(t), welche die Abstände minimiert, als Erkennungsergebnis ausgegeben.
Bei dieser Ausführungsform filtert die Vorverarbeitungseinheit 4 die Bilddaten mit dem LOG-Filter, um die Bildflanke zu ermitteln. Das Ermittlungsverfahren für die Bildflanke ist jedoch nicht darauf beschränkt. Außerdem ist es in der Vorverarbeitungseinheit 3 möglich, nicht nur die Bildflanke herauszunehmen, sondern auch den anderen charakteristischen Betrag. Da das Korrespondenzproblem zum Bild in der Verarbeitungseinheit 4 gelöst wird, ist es in der Vorverarbeitungseinheit 3 möglich, die Bilddaten zur Vergleichsverarbeitungseinheit 4 ohne Filtern auszugeben.
In der Vergleichsverarbeitungseinheit 4 wird der Verformungsbetrag M(x, y) durch die Blockanpassung berechnet. Der Verformungsbetrag M(x, y) kann jedoch durch die optische Fießmethode berechnet werden, die allgemein bei der Ermittlung der Bewegung des bewegbaren Bilds verwendet wird, wie dies beispielsweise im offengelegten japanischen Patent Nr. HEI 3-150520 offenbart ist.
In der Funktionslern-Speichereinheit 5 wird lediglich die Funktion FMAX(x, y), die den maximalen Beitragsgrad XMAX ergibt, verformt (gelernt). Die Funktion, die den zweiten oder dritten größeren Beitragsgrad ergibt, kann jedoch verformt (gelernt) werden.
Die Informationslern-Speichereinheit 7 einer Person kann aus einem neuralen Netz wie die Funktionslern-Speichereinheit 5 bestehen, wobei der Beitragsgrad X&sub1; der in der Vergleichsverarbeitungseinheit 4 berechnet wurde, zur Informationslern-Speichereinheit 7 einer Person geliefert wird (wie in der gestrichelten Linie in Fig. 1 gezeigt ist), so daß die Personeninformation K(t) gemäß der inversen Fehlerausbreitungsmethode unter Verwendung des Verformungsbetrags Mtdr(x, y) und des Beitragsbetrags X&sub1; gelernt werden kann, d. h. daß der Wichtungsfaktor des neuralen Netzes regeneriert werden kann. Durch Liefern der Parallelbewegungskomponente T, der Komponente, die das Vergrößerungs-/Verkleinerungsverhältnis betrifft, oder der Drehbewegungskomponente R, die durch die Verformungsbetrag-Analyseeinheit 6 in der Informationslern-Speichereinheit 7 einer Person berechnet wurde, ist es möglich, das Lernen der Information K(t) über eine Person durchzuführen. Somit ist es möglich, die Position, die Größenordnung oder die Neigung der Substanz (Bild), welches zu erkennen ist, zu beurteilen.
In der Informationslern-Speichereinheit 7 über die Person ist es möglich, das Lernen durch das sogenannte Hauptkomponenten-Analyseverfahren durchzuführen.
In der Funktionslern-Speichereinheit 5 oder der Lernspeichereinheit 7 über die Person können beispielsweise die Lernverfahren, bei denen die sogenannte Boltzmann-Maschine und das simulierte Härten verwendet wird, verwendet werden.
Wie oben beschrieben wird bei Mustererkennungsgeräten nach der vorliegenden Erfindung ein Eingangsmuster von der Information des Bilds vorbereitet und mit dem Basismuster, welches in der Basismuster-Speichereinrichtung gespeichert ist, verglichen, die den Verformungsbetrag des Eingangsmusters zum Basismuster berechnet. Nachfolgend werden auf der Basis des Verformungsbetrags das Basismuster, welches in der Basismuster-Speichereinrichtung gespeichert ist, und das Eingangsmuster, welches durch die Vorbereitungseinrichtung vorbereitet ist, verformt. Somit wird auf der Basis des Verformungsmusters und der Eingangsmusters das Basismuster, welches in der Basismuster-Speichereinrichtung gespeichert ist, regeneriert. Da folglich das Basismuster regeneriert wird, um ähnlich dem Eingangsmuster zu sein, ist es nicht notwendig, das Basismuster für jedes Erkennungsobjekt vorzubereiten, wodurch es möglich wird, die Speicherkapazität der Basismuster-Speicherein richtung zum Speichern des Basismusters zu reduzieren, und folglich die Baugröße des Geräts zu reduzieren. Außerdem ist es möglich, das Erkennungsverhältnis 211 verbessern.
Bei Mustererkennungsgeräten nach der vorliegenden Erfindung wird das Eingangsmuster mit dem Basismuster verglichen, welches in der Basismuster-Speichereinrichtung gespeichert ist, so daß der Verformungsbetrag des Eingangsmusters zum Basismuster berechnet wird. Dann wird der Verformungsbetrag analysiert und auf der Basis des Ergebnisses wird das Standardmuster, welches in der Standardmuster-Speichereinrichtung gespeichert ist, regeneriert. Folglich ist es möglich, das Regenerieren (Lernen) des Standardmusters automatisch durchzuführen, um so das Erkennungsverhältnis zu verbessern.

Claims

1. Mustererkennungsgerät, welches aufweist:

eine Vorbereitungseinrichtung (3), um ein Eingangsmuster (P(x, y)) auf der Basis der eingegangenen Information (I(x, y)) vorzubereiten;

eine Basismusterlern-/Speichereinrichtung (5), um mehrere Basismuster (Fi(x, y), i = 1, . . ., r) zu speichern;

eine vergleichende Verarbeitungseinrichtung (4, 6), um das Eingangsmuster mit den Basismustern zu vergleichen;

wobei die Mustererkennungseinrichtung dadurch gekennzeichnet ist, daß

die vergleichende Verarbeitungseinrichtung (4) Korrelationsbeträge (Xi ) des Eingangsmusters in bezug auf die mehreren Basismuster bestimmt und das eine Basismuster (FMAX(x, y)) auswählt, für welches der Beitragsbetrag maximiert ist (XMAX);

die vergleichende Verarbeitungseinrichtung (4, 6) einen Verformungsbetrag (M(x, y)), (Mtdr(x, y)) des Eingangsmusters in bezug auf das ausgewählte Basismuster (FMAX(x, y)) bestimmt;

eine Musterlern-/Speichereinrichtung (7) sowohl zum Regenerieren (S34) als auch zum Speichern (S35) eines Standardmusters (K(t)) in Verbindung mit jedem erkennbaren Muster (t) in Abhängigkeit vom Verformungsbetrag oder zum Erkennen des Eingangsmusters durch Bestimmen, welches gespeicherte Standardmuster (K(t)) ein Abstandsmaß zwischen dem Verformungsbetrag des Standardmusters (K(t)) minimiert.

2. Mustererkennungseinrichtung nach Anspruch 1, wobei die Vorbereitungseinrichtung die eingegangene Information mit LOG-Filter filtert, um den entsprechenden Nullpunkt zu ermitteln, und die Eingangsinformation mit einem Tiefpaßfilter filtert.

3. Mustererkennungseinrichtung nach Anspruch 1, wobei die vergleichende Verarbeitungseinrichtung das Eingangsmuster mit dem Basismuster für jeden Block vergleicht und die Bewegungshöhe des Blocks als den Verformungsbetrag berechnet.

4. Mustererkennungseinrichtung nach Anspruch 1, wobei die Vorbereitungseinrichtung das Eingangsmuster auf der Basis eines Gesichtsbilds vorbereitet.