DE60208223T2

DE60208223T2 - Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells

Info

Publication number: DE60208223T2
Application number: DE60208223T
Authority: DE
Inventors: V. R. Srinivas GUTTA; Vasanth Philomin; Miroslav Trajkovic
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-28
Filing date: 2002-09-10
Publication date: 2006-08-10
Anticipated expiration: 2022-09-11
Also published as: EP1433118B1; US7308133B2; CN1276380C; CN1559051A; US20030063780A1; JP2005505062A; KR20040037180A; WO2003030085A1; ATE313831T1; EP1433118A1; DE60208223D1

Description

Die vorliegende Erfindung bezieht sich auf Gesichtserkennungssysteme und insbesondere auf ein System und ein Verfahren zum Durchführen von Gesichtserkennung unter Verwendung von Verhältnissen des gelernten Modells.
Bestehende Gesichtserkennungssysteme versuchen ein unbekanntes Gesicht dadurch zu erkennen, dass es mit vorherigen Exemplaren des Gesichtes dieses Subjektes verglichen wird. Dies geschieht typischerweise dadurch, dass ein Klassifizierer gegenüber vorherigen Exemplaren des Gesichtes eines Subjektes trainiert wird und dass danach der trainierte Klassifizierer das Subjekt dadurch erkennt, dass es mit neunen Exemplaren des Gesichtes dieses Subjektes verglichen wird. Bekanntlich erfordert das Trainieren eines Klassifizierers das Lernen eines Modells des Gesichtes des Subjektes. Bestehende Systeme benutzen das ganze Modell während der Klassifizierung.
Während das schlussendliche Ziel des Entwurfs eines Mustererkennungssystems ist, die möglichst beste (vorhersagbare) Klassifizierungsleistung zu erreichen, hat diese Aufgabe bisher zu der Entwicklung verschiedener Klassifizierungsschemen für ein zu lösendes Mustererkennungsproblem geführt. Die Ergebnisse einer versuchsweise durchgeführten Beurteilung der verschiedenen Entwürfe wäre dann die Basis einen der Klassifizierer als eine Endlösung des Problems zu wählen (Modellselektion). Es hat sich bei derartigen Entwurfsstudien herausgestellt, dass obschon einer der Entwürfe die beste Leistung ergeben würde, die Sätze mit von den verschiedenen Klassifizierern falsch klassifizierten Mustern einander nicht notwendigerweise überlappen, wie von Kittler J, Hatef, H und Duin R.P. W. in dem bezugsmaterial mit dem Titel: "Combining Classifiers in Proceedings of the 13^th International Conference on pattern Recognition" Heft II, Seiten 897-901, Wien, Österreich 1996 erkannt. Dieses Material schlug vor, dass verschiedene Entwürfe von Klassifizierern eventuell komplementäre Information über die zu klassifizierenden Muster boten, die angeschirrt werden könnten um die Gesamtleistung zu verbessern.
Es war in der Anwendung von neuralen Netzwerken üblich, viele verschiedene Kandidatnetzwerke zu trainieren und dann das beste zu selektieren, und zwar auf Basis beispielsweise der Leistung bei einem unabhängigen Bewertungssatz und nur dieses Netzwerk beizubehalten und den Rest weg zu werfen. Es gibt zwei Nachteile bei einer der artigen Annäherung. Erstens ist die ganze Anstrengung beim Training der restlichen Netzwerk Verschwendung. Zweitens hat die Verallgemeinerungsleistung bei dem Bewertungssatz einen beliebigen Anteil, und zwar wegen der Störung in den Daten, und folglich könnte es sein dass das Netzwerk mit der besten Leistung in dem Bewertungssatz nicht das Netzwerk ist, das die beste Leistung bei neuen oder nicht gesehenen Daten hat. Diese Nachteile können dadurch überwunden werden, dass die Netzwerke kombiniert werden um einen Ausschuss von Netzwerken zu bilden. Die Bedeutung einer derartigen Annäherung ist, dass dies zu einer wesentlichen Verbesserung der Vorhersage bei neunen Daten führen kann, während dazu wenig zusätzlicher Rechenaufwand erforderlich ist. Im Wesentlichen kann die Leistung eines Ausschusses besser sein als die Leistung des besten einzelnen Netzwerkes, das isoliert verwendet wird, wie von Bishop C.M. in dem Bezugsmaterial mit dem Titel: "Neural Networks for Pattern Recognition", Oxford Press, Oxford UK, Seiten 364-377, 1997 erkannt.
Um Gesichter zu erkennen, haben Erkennungssysteme viele Klassifizierer benutzt, die auf Profile eines einzelnen Gesichtes trainiert waren. Bei der Präsentation eines Testers (Testbild) wird der Tester mit jedem gelernten Modell zusammengebracht und die von jedem Klassifizierer erhaltenen Ergebnisse werden benutzt um eine übereinstimmende Entscheidung zu treffen. Ein wesentlicher Nachteil des Trainings vieler Klassifizierer ist, dass viel Zeit und Raum verschwendet wird beim Training und bei der Speicherung der Modelldateien.
Es wäre sehr erwünscht, ein Gesichtserkennungssystem und eine Methodologie zu schaffen, wobei stattdessen, dass es viele Klassifizierer gibt, die auf mehrere Profile eines einzelnen Gesichtes trainiert werden, einen einzigen Klassifizierer gibt, der auf entweder eine Vorderansicht eines Gesichtes oder auf mehrere Profile eines Gesichtes einer Person trainiert ist.
Es wäre weiterhin sehr erwünscht, ein Gesichtserkennungssystem und ein Verfahren zu schaffen, wobei Teile eines Modells eines Subjektes implementiert und benutzt wird um mit verschiedenen Teilen des Gesichtes einer Person verglichen zu werden. Das heißt, beim testen wird ein unbekanntes Gesichtsbild dadurch identifiziert, dass verschiedene Teile des gelernten Modells mit dem unbekannten Gesichtsbild verglichen werden.
Auf entsprechende Art und Weise ist es nun u. a. eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, wobei ein Klassifizierer (beispielsweise RBF Netzwerke) implementiert wird, der trainiert werden kann, entweder eine Vorderansicht eines Gesichtes oder mehrere Profile eines Gesichtes einer Person zu erkennen.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Gesichtserkennungssystem und ein Verfahren zu schaffen, wobei eine einzige Klassifizieranordnung implementiert wird, die auf ein Frontalprofil des Gesichtes einer Person trainiert ist und beim Testen ein unbekanntes Testbild nimmt und dies unter Verwendung verschiedener Teile mit dem gelernten Modell vergleicht.
Vorzugsweise wird nach dem Vergleich mit jedem Teil eine Übereinstimmungswahrscheinlichkeit ermittelt und die Ergebnisse werden danach kombiniert zum Erzielen einer übereinstimmenden Entscheidung. So wird beispielsweise jeder klassifizierte Teil ein Wahlresultat ergeben. Das heißt, wenn zehn (10) Teile verwendet werden, würden 10 Ergebnisse erhalten. Danach wird eine einfache Abstimmregel angewandt (beispielsweise wenn sechs (6) von zehn (10) für "A" sind, dann ist die Identität der Person "A") um die Identität des Individuums zu bestätigen.
Nach den Grundlagen der vorliegenden Erfindung wird ein System und ein Verfahren zum Klassifizieren von Gesichtsbilddaten geschaffen, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: das Trainieren einer Klassifizieranordnung zum Erkennen eines oder mehrerer Gesichtsbilder und zum Erhalten entsprechender gelernter Modelle der zur Training verwendeten Gesichtsbilder; das Eingeben eines Vektors mit Daten, die einen Teil eines unbekannten zu erkennenden Gesichtsbildes darstellen, in die genannte Klassifizieranordnung; das Klassifizieren des genannten Teils des genannten unbekannten Gesichts entsprechend einem Klassifizierungsverfahren; das Wiederholen des Eingabeschrittes und des Klassifizierschrittes unter Verwendung eines anderen Teils des genannten unbekannten Gesichtsbildes bei jeder Wiederholung; und das Identifizieren eines einfachen Klassenergebnisses von den genannten verschiedenen Teilen, die in den genannten Klassifizierer eingegeben worden sind.
Auf vorteilhafte Weise dürfte es einleuchten, obschon ein RBF-Klassifizierer verwendet wird, dass auch andere Verfahren angewandt werden könnten, einschließlich Kombinationen von mehreren wahrscheinlichen/zufälligen Verfahren.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 eine allgemeine Darstellung der Architektur eines herkömmlichen dreischichtigen Backpropagation-Netzwerkes 10, entsprechend dem ein RBF-Netzwerk, implementiert nach den Grundlagen der vorliegenden Erfindung, strukturiert ist,
2 eine Darstellung eines Mustersatzes von Gesichtsbildern, die dem Netzwerk zugeführt wurden.
Zwecks der Beschreibung ist ein RBF-Klassifizierer ("Radial Basis Function") implementiert worden, obschon jede beliebige Klassifizierungsmethode/Anordnung implementiert werden kann. Eine Beschreibung einer RBF-Klassifizieranordnung ist aus der ebenfalls von der Anmelderin eingereichten US Patentanmeldung Nr. 09/794.443, veröffentlicht unter der Nummer 02065267 mit dem Titel: "Classification of objects through model ensembles", eingereicht am 27. Februar 2001 bekannt.
Die Konstruktion eines RBF-Netzwerkes, wie in der ebenfalls von der Anmelderin eingereichten US Patentanmeldung Nr. 09/794.443, beschrieben, wird nun anhand der 1 näher beschrieben. Wie in 1 dargestellt, ist der Basisklassifizierer 10 des RBF-Netzwerkes entsprechend einem herkömmlichen dreischichtigen Backpropagation-Netzwerk 10, das eine erste Eingabeschicht 12 aufweist, bestehend aus Quellenknotenpunkten (beispielsweise, k Abtasteinheiten); eine zweite oder versteckte Schicht 14 mit i Knotenpunkten, deren Funktion es ist, die Daten zu gruppieren und die Räumlichkeit zu reduzieren; und eine dritte oder Ausgangsschicht 18 mit j Knotenpunkten, deren Funktion es ist, die Reaktionen 20 des Netzwerkes 10 auf die Aktivierungsmuster zu liefern, die auf die Eingabeschicht 12 angewandt werden. Die Transformation von dem Eingaberaum zu dem versteckten Raum ist nicht linear, während die Transformation von dem versteckten-Einheitraum zu dem Ausgangsraum linear ist. Insbesondere, wie anhand des Artikels von C.M. Bishop "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1997 beschrieben, kann ein RBF Klassifiziernetzwerk 10 auf zweierlei Weise gesehen werden:

1) zum Interpretieren des RBF Klassifizierers als einen Satz von Kernfunktionen, die Eingangsvektoren in einen hochdimensionalen Raum expandieren, damit der Vorteil der mathematischen Tatsache erhalten wird, dass es wahrscheinlicher ist, dass ein Klassifikationsproblem in einem hochdimensionalen Raum linear getrennt werden kann als ein Problem in einem niedrigdimensionalen Raum; und
2) zum Interpretieren des RBF Klassifizierers als eine Funkfionsabbildungsinterpolationsmethode, die versucht Hypersurfaces zu konstruieren, eine für jede Klasse, und zwar dadurch, dass die linear Kombination der Basisfunktionen (BF) genommen wird. Diese Hypersurfaces können als diskriminierende Funktionen gesehen werden, wobei die Oberfläche einen hohen Wert hat für die Klasse, die sie darstellt und einen niedrigen Wert für alle anderen. Ein unbekannter Eingangsvektor wird als zu der Klasse gehörend klassifiziert, die mit der Hypersurface mit dem größten Ausgang an diesem Punkt assoziiert ist. in diesem Fall dienen die BFs nicht als eine Basis für einen hochdimensionalen Raum, sondern als Komponenten in einer endlichen Expansion der gewünschten Hypersurface, wo die zusammensetzenden Koeffizienten (die Gewichtungen) trainiert werden müssen.

Weiterhin haben in der 1 der RBF Klassifizierer 10, die Verbindungen 22 zwischen der Eingangsschicht 12 und der versteckten Schicht 14 einfache Gewichtungen, wodurch sie nicht trainiert zu werden brauchen. Die Knotenpunkte in der versteckten Schicht 14, d.h. die als Basisfunktionsknotenpunkte (BF) bezeichnet, haben eine Gaußsche Impulsnichtlinearität, spezifiziert durch einen bestimmte Mittelvektor μ_i (d.h. zentraler Parameter) und einen Varianzvektor σ 2 / i (d.h. Breitenparameter), wobei i = 1, ...., F ist und F die Anzahl BF Knotenpunkte ist. Es sei bemerkt, dass σ 2 / i die diagonalen Eingaben der Kovarianzmatrix des Gaußschen Impulses (i) darstellt. Wenn ein D-dimensionaler Eingangsvektor X gegeben ist, liefert jeder BF Knotenpunkt (i) einen skalaren Wert y_i, der die Aktivierung der BF darstellt, verursacht durch diesen Eingang, wie durch die Gleichung (1) wie folgt dargestellt:
Wenn h eine Proportionalitätskonstante für die Varianz ist, ist x_k die k. Komponente des Eingangsvektors X = [x₁, x₂, ..., x_D], und μ_ik und σ 2 / i sind die k. Komponenten des mittleren bzw. Varianzvektors des Basisknotenpunktes (i). Eingaben, die nahe bei der Mitte der Gaußschen Funktion liegen, führen zu höheren Aktivierungen, während diejenigen, die weiter weg liegen, zu niedrigeren Aktivierungen führen. Da jeder Ausgangsknotenpunkt 18 des RBF Netzwerkes eine lineare Kombination der BF Knotenpunktaktivierungen bildet, ist der Teil des Netzwerkes, der die zweite (versteckte) und die Ausgangsschichten miteinander verbindet, wie durch die Gleichung (2) dargestellt, wie folgt:
wobei z_j der Ausgang des j. Ausgangsknotenpunktes ist, wobei y_i die Aktivierung des i. BF Knotenpunktes ist, wobei w_ij die Gewichtung 24 ist, die den i. BF Knotenpunkt mit dem j. Ausgangsknotenpunkt verbindet, und wobei w_oj die Vorspannung oder die Schwelle des j. Ausgangsknotenpunktes ist. Diese Vorspannung rührt von den Gewichtungen her, die mit einem BF Knotenpunkt assoziiert sind, der einen konstanten einfachen Ausgang hat, ungeachtet des Eingangs.
Ein unbekannter Vektor X wird klassifiziert als zu der Klasse gehörend, die mit dem Ausgangsknotenpunkt j mit dem größten Ausgang z_j assoziiert ist. Die Gewichtungen w_ij in dem linearen Netzwerk werden unter Anwendung iterativer Minimierungsverfahren, wie Gradientenabfall nicht gelöst. Sie werden schnell und genau unter Anwendung einer pseudoinversen Matrixtechnik, wie in dem oben genannten Bezugsmaterial von C.M. Bishop "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1997 beschrieben.
Eine detaillierte Algorithmusbeschreibung des bevorzugter RBF Klassifizierers, der in der vorliegenden Erfindung implementiert werden kann, ist hierin in den Tabellen 1 und 2 vorgesehen. Wie in der Tabelle 1 dargestellt, wird die Größe des RBF Netzwerkes 10 durch Selektion von F, der Anzahl BF Knotenpunke, bestimmt. Der geeignete Wert von F ist problemspezifisch und ist meistens von der Dimensionalität des Problems und der Komplexität der zu bildenden Entscheidungsgebiete abhängig. Im Allgemeinen kann F empirisch dadurch bestimmt werden, dass eine Varietät von Fs versucht wird, oder F kann auf eine bestimmte konstante Zahl gesetzt werden, die meistens größer ist als die Eingangsgröße des Problems. Nachdem F eingestellt ist, können der mittlere μ_I und der Varianzvektor σ 2 / i der BFs unter Anwendung einer Anzahl Methoden bestimmt werden. Sie können zusammen mit den Ausgangsgewichtungen trainiert werden, und zwar unter Anwendung einer Backpropagation-Abfalltechnik, dies erfordert aber meistens eine lange Trainingszeit und kann zu suboptimalen örtlichen Minima führen. Auf alternative Weise können die Mittel und die Varianzen vor dem Training der Ausgangsgewichtungen bestimmt werden. Training der Netzwerke würde dann nur eine Bestimmung der Gewichtungen erfordern.
Die BF Mittel (Mitten) und Varianzen (Breiten) werden normalerweise derart gewählt, dass sie den betreffenden Raum bedecken. Es können verschiedene bekannte Techniken angewandt werden: so implementiert eine bestimmte Technik beispielsweise ein Gitter in gleichen Abständen voneinander liegender BFs, die den Eingangsraum abtasten; eine andere Technik implementiert einen Gruppierungsalgorithmus, wie k-Mittel zum bestimmen des Satzes mit BF Zentren; andere Techniken implementieren gewählte beliebige Vektoren aus dem Trainingssatz als BF Zentren, wobei sicher gestellt wird, dass jede Klasse dargestellt wird.
Wenn die BF Zentren oder Mittel einmal bestimmt worden sind, können die BF Varianzen oder Breiten σ 2 / i eingestellt werden. Sie können auf einen globalen Wert festgelegt oder derart eingestellt werden, dass sie die Dichte der Datenvektoren in der Nähe des BF Zentrums reflektieren. Außerdem wird ein globaler Proportionalitätsfaktor H für die Varianzen eingeschlossen, damit eine Neuskalierung der BF Breiten ermöglicht wird. Dadurch, dass der Raum von H für Werte, die zu einer guten Leistung führen, gesucht wird, wird der geeignete Wert bestimmt.
Nachdem die BF Parameter eingestellt sind, ist der nächste Schritt das Training der Ausgangsgewichtungen w_ij in dem linearen Netzwerk. Einzelne Trainingsmuster X(p) und deren Klassenanhänger C(p) werden dem Klassifizierer präsentiert und die resultierenden BF Knotenpunktausgänge y_I(p) werden berechnet. Diese und gewünschte Ausgänge d_j(p) werden danach benutzt um die F × F Korrelationsmatrix "R" und die F × M Ausgangsmatrix "B" zu bestimmen. Es sei bemerkt, dass jedes Trainingsmuster eine R und eine B Matrix erzeugt. Die endgültigen R und B Matrizen sind das Ergebnis der Summe von N einzelnen R und M Matrizen, wobei N die gesamte Anzahl Trainingsmuster ist. Wenn alle N Muster dem Klassifizierer präsentiert worden sind, werden die Ausgangsgewichtungen w_ij bestimmt. Die endgültige Korrelationsmatrix R wird invertiert und wird zum bestimmen von jedem w_ij benutzt.
Tabelle 1
Wie in der Tabelle 2 dargestellt, erfolgt die Klassifizierung durch Präsentation eines unbekannten Eingangsvektors X_test zu dem trainierten Klassifizierer und durch Berechnung der resultierenden BF Knotenpunktausgänge y_i. Diese Werte werden danach zusammen mit den Gewichtungen w_ij verwendet um die Ausgangswerte z_j zu berechnen. Der Eingangsvektor X_test wird danach als zu der Klasse gehörend, die mit dem Ausgangsknotenpunkt j mit dem größten z_j Ausgang assoziiert ist.
Tabelle 2
Bei dem Verfahren nach der vorliegenden Erfindung besteht der RBF Eingang aus auf n-Größe normalisierten Grauskala-Gesichtsbildern, die dem Netzwerk als eindimensional zugeführt werden, d.h. als 1-D Vektoren. Die versteckte (nicht überwachte) Schicht 14 implementiert eine "verbesserte" k-Mittelgruppierungsprozedur, wie die beschrieben worden ist in dem Artikel von S. Gutta J. Huang, P. Jonathon und H. Wechsler: "Mixture of Experts for Classification of Gender, Etnic, Origin and Pose of Human Faces", IEEE Transaction on Neural Networks" 11 (4):948-960, Juli 2000, wobei die Anzahl Gaußschen Gruppenknotenpunkte und deren Varianzen dynamisch eingestellt werden. Die Anzahl Gruppen kann variieren, in Fünferschritten, beispielsweise von 1/5 der Anzahl Trainingsbilder bis N, die gesamte Anzahl Trainingsbilder. Die Größe σ der Gaußschen für jede Gruppe wird auf Maximum gesetzt (den Abstand zwischen der Mitte der Gruppe und dem am weitesten entfernt liegenden Mitglied innerhalb des Klassendurchmesser, den Ab stand zwischen der Mitte der Gruppe und dem am nächsten liegenden Muster von allen andern Mustern) multipliziert mit einem Überlappungsfaktor o, hier gleich 2. Die Größe wird weiterhin dynamisch verfeinert, und zwar unter Verwendung verschiedener Proportionalitätskonstanten h. Die versteckte Schicht 14 ergibt das Äquivalent einer funktionellen Formbasis, wobei jeder Gruppenknotenpunkt einige gemeinsame Kennzeichen über den Formraum codiert. Die Ausgangsschicht (überwacht) bildet Gesichtscodierungen (Expansionen) in einem derartigen Raum zu den entsprechenden ID Klassen ab und findet die entsprechende Expansionskoeffizienten (Gewichtung) unter Anwendung von Pseudoinvertierten Techniken. Es sei bemerkt, dass die Anzahl Gruppen für diese Konfiguration gestoppt wurde (Anzahl Gruppen und spezifische Proportionalitätskonstante h), was 100% Genauigkeit bei der ID Klassifizierung gibt, wenn an denselben Trainingsbildern getestet.
Nach der vorliegenden Erfindung sind die Eingangsvektoren, die zum Training verwendet werden, komplette Gesichtsbilder, beispielsweise die Gesichtsbilder 30 aus 2, die je beispielsweise 64 × 72 Pixel enthalten. Nach der vorliegenden Erfindung wird eine einziger Klassifizierer (RBF Netzwerk) 10 mit diesen kompletten Bildern trainiert. Aber während des wirklichen Testvorgangs werden verschiedene Teile des Testbildes mit verschiedenen Teilen des Modells verglichen. So ist beispielsweise der Schritt 2 des in der Tabelle 2 dargestellten Klassifizierungsalgorithmus ein iterativer Prozess, der eine Subtrahierung des unbekannten Testbildes von einem anderen Teil des gelernten Modells in jeder Iteration durchführt. Das Training ist, dass bei der ersten Wiederholung an einem kompletten Gesicht ein komplettes Bild und ein X_test (komplettes Bild) eingegeben werden. Es wird dann ein erstes Ausgangsergebnis erhalten, das ein Vertrauensmaß (Wahrscheinlichkeitsmaß) umfasst, beispielsweise wie in dem Schritt 2(c) in der Tabelle 2 dargestellt, mit einem Wert zwischen 0 und 1, und einen Anhänger, der den Klassenanhänger (gelerntes Modell) identifiziert. Bei jeder Wiederholung werden drei Schritte wiederholt, wobei jedes Mal ein anderer Prozentsatz des Bildes verwendet wird, d.h. Teile des gelernten Modells. So kann beispielsweise in einer nächsten Wiederholung ein kleinerer Teil des unbekannten Bildes, beispielsweise 90% verwendet werden, dies im Vergleich zu den entsprechenden 90% des gelernten Modellbildes für jede Klasse, usw. Durch jeden Vergleich wird ein weiteres Vertrauensmaß (Wahrscheinlichkeit) und ein Anhänger, der die Klasse (gelerntes Modell) identifiziert durch die Klassifizieranordnung bestimmt. Auf diese Weise befindet sich, wie in der Tabelle 2 angegeben, das Ganze des Schrittes 2(a) in einer Schleife, wobei der Prozess viele Male wiederholt wird, und zwar je nach der Anzahl gewünschter Teile. So können beispielsweise je nach Selektion eines Benutzers die verwendeten X_test Bildteile von maximal (beispielsweise 100% des kompletten Bildes) bis minimal (beispielsweise 50% des kompletten Bildes reichen mit einem 10% oder 5% Teilreduktion bei jeder Wiederholung. Wie in der ebenfalls von der Anmelderin eingereichten US Patentanmeldung Nr. 09/966436, veröffentlicht als US02001/966436 mit dem Titel "System and method of face recognition through ½ faces" wenn das minimale Bild verwendet wird, d.h. 50%, ist es unbedingt erforderlich, dass wenigstens ein Auge, eine halbe Nase und ein halber Mund des Gesichtsbildes eingefangen wird, beispielsweise ein vertikaler Teil des Bildes. Die Körnigkeit der Teilreduktion bei jeder Wiederholung kann eine vom Benutzer selektierbare Option sein und kann davon abhängig sein, wie gut die Daten sind sowie von den Rechenkosten. Es sei bemerkt, dass es zwischen der Leistung und den Kosten ein Kompromiss gibt. So ist beispielsweise je nach dem erwünschten Sicherheitspegel, d.h. je sicherer die Applikation, umso feinere Körnigkeit der Teilreduktion bei jeder Wiederholung und umso größer die Anzahl Vergleiche zu mehr Kosten durchgeführt werden müssen. Für den Fall von 100% bis 50% in 10% Bildreduktionsteilen bei jedem Schritt werden insgesamt sechs (6) Vertrauensergebnisse und Klassenanhänger geschaffen, wobei bei 5% Bildreduktionsteilen bei jedem Schritt insgesamt zwölf (12) für jede Klasse entstehen. Nachdem die Ergebnisse akkumuliert worden sind, können Regeln angewandet werden um die Klasse für dieses Testbild zu bestimmen. So können beispielsweise die Ergebnisse kombiniert werden um zu einer übereinstimmenden Entscheidung zu gelangen. Eine einfache Klasse kann aber Hauptregel sein, anspruchsvollere Regeln können aber auch angewandt werden, beispielsweise wie in dem Bezugsmaterial von J. Kittler, M.Hateg, und R.P.W. Duin mit dem Titel: "Combining Classifiers", "Proc. Of the 13th International Conference on Pattern Recognition, II" 897-901, Wien, Österreich, August 1996 beschrieben. So wird beispielsweise jeder klassifizierte Teil eine Bewertung erzeugen und wenn zehn (10) Teile verwendet werden, werden 10 Bewertungen erhalten. Danach wird eine einfache Hauptentscheidungsregel angewandt (beispielsweise wenn sechs (6) von zehn (10) für "A" sind, dass ist die Identität des Subjektes "A"), um die Identität der Person (Klasse) zu bestätigen. In Reaktionen darauf werden viele Bewertungen erzeugt und in dem Klassifizierer ist, wie in 1 dargestellt, eine Selektionsanordnung 28 mit Logik versehen zum Anwenden von Bewertungsregeln zum Erzielen einer geeigneten Entscheidung.
Während dargestellt und beschrieben worden ist, was als bevorzugte Ausführungsformen der vorliegenden Erfindung betrachtet wird, dürfte es selbstverständlich einleuchten, dass mehrere Modifikationen und Änderungen in Form und Einzelheit im Rahmen der vorliegenden Erfindung durchgeführt werden können. Deswegen beschränkt sich die vorliegende Erfindung nicht auf die exakt beschriebenen und dargestellten Formen, sondern sie soll alle Modifikationen decken, die in den Rahmen der beiliegenden Patentansprüche fallen.
Text in der Zeichnung
1

Selektion des Maximums
Lineare Gewichtungen
Ausgangsknotenpunkte
Basisknotenpunkte einfache Gewichtungen
Eingangsknotenpunkte

Claims

Verfahren zum Klassifizieren von Gesichtsbilddaten, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: a) das Trainieren einer Klassifizieranordnung (10) zum Erkennen eines oder mehrerer Gesichtsbilder und zum Erhalten entsprechender gelernter Modelle der zur Training verwendeten Gesichtsbilder; b) das Eingeben eines Vektors mit Daten, die einen Teil eines unbekannten zu erkennenden Gesichtsbildes darstellen, in die genannte Klassifizieranordnung (10), c) das Klassifizieren des genannten Teils des genannten unbekannten Gesichts entsprechend einem Klassifizierungsverfahren, d) das Wiederholen des Schrittes b) und c) unter Verwendung eines anderen Teils des genannten unbekannten Gesichtsbildes bei jeder Wiederholung; und e) das Identifizieren (28) eines einfachen Klassenergebnisses von den genannten verschiedenen Teilen, die in den genannten Klassifizierer eingegeben worden sind.
Verfahren nach Anspruch 1, wobei der genannte Klassifizierungsschritt (c) Folgendes umfasst: – bei jeder Wiederholung, das Vergleichen eines Teils des unbekannten Gesichtes mit einem entsprechenden Teil des gelernten Modellbildes für jede Klasse; und – das Erhalten einer Vertrauensauswertung für jeden klassifizierten Teil.
Verfahren nach Anspruch 2, wobei der genannte Klassifizierungsschritt e) das Anwenden einer Regel auf die genannten Vertrauensauswertungen zum Erhalten des genannten einzelnen Klassenergebnisses umfasst.
Verfahren nach Anspruch 2, wobei die genannte Vertrauensauswertung ein Wahrscheinlichkeitsmaß ist, dass ein aktueller Teil eines unbekannten Gesichtsbildes mit einer Klasse identifiziert ist, wobei die angewandte Regel das Erhalten einer Klasse umfasst, die eine Vielheit von Klassenbezeichnungen hat, ermittelt für jedes unbekannte Ge sichtsbild.
Verfahren nach Anspruch 2, wobei der genannte Klassifizierungsschritt c) Folgendes umfasst: das Abnehmen, bei jeder Wiederholung, des Teils des unbekannten Bildes, das getestet werden soll, und das Vergleichen des abgenommenen Teils des unbekannten Bildes mit einem entsprechenden abgenommenen Teil des gelernten Modellbildes für jede Klasse.
Verfahren nach Anspruch 5, wobei mit gleichen Minderungsstufen die genannten Teile von 100% des unbekannten Gesichtsbildes auf 50% des unbekannten Gesichtsbildes reduziert werden.
Verfahren nach Anspruch 1, wobei ein radiales Basisfunktionsnetzwerk (10) zum Training und zur Klassifizierung jedes Teils implementiert wird.
Verfahren nach Anspruch 7, wobei der genannte Trainingsschritt Folgendes umfasst: (a) das Initialisieren des radialen Basisfunktionsnetzwerkes, wobei der Initialisierungsschritt die nachfolgenden Schritte umfasst: – das Fixieren der Netzwerkstruktur durch Selektion einer Anzahl Basisfunktionen F, wobei jede Basisfunktion I den Ausgang einer Gaußschen Nicht-Linearität hat, – das Ermitteln der Basisfunktionsmittel μ_I, wobei I = 1, ..., F ist, und zwar unter Verwendung eines K-Mittel Gruppierungsalgorithmus, – das Ermitteln der Basisfunktionsvarianzen σ 2 / I; und – das Ermitteln eines globalen Proportionalitätsfaktors H, für die Basisfunktionsvarianzen durch empirische Suche; (b) das Präsentieren des Trainings, wobei der Präsentationsschritt die nachfolgenden Schritte umfasst: – das Eingeben von Trainingsmustern X(p) und der Klassenbezeichnungen C(p) un das Klassifizierungsverfahren, wobei der Musterindex p = 1, ..., N ist, – das Berechnen des Ausgang der Basisfunktionsknotenpunkte y₁(p), F, herrührend von dem Muster X(p), – das Berechnen der F × F Korrelationsmatrix R der Basisfunktionsausgänge; und – das Berechnen der F × M Ausgangsmatrix B, wobei d_j der gewünschte Ausgang ist und M die Anzahl Ausgangsklassen ist und j = 1, ..., M ist, und (c) das Ermitteln von Gewichtungen (24), wobei der Ermittlungsschritt die nachfolgenden Schritte umfasst: – das Invertieren der F × F Matrix R um R^–1 zu erhalten; und – das Lösen der Gewichtungen in dem Netzwerk.
Verfahren nach Anspruch 8, wobei der Klassifizierungsschritt c) weiterhin Folgendes umfasst: – das Präsentieren jeder X_test Teils bei jeder Wiederholung zu dem Klassifizierungsverfahren, – das Klassifizieren jedes X_test durch: * Berechnung der Basisfunktionsausgänge, für alle F Basisfunktionen, * das Berechnen von Ausgangsknotenpunktaktivierungen (20); und * das Selektieren des Ausgangs Z_j mit dem größten Wert und Klassifizierung des X_test Teils als eine Klasse j.
Verfahren nach Anspruch 1, wobei der Klassifizierungsschritt c) das Ausliefern einer Klassenbezeichnung umfasst, die eine Klasse bezeichnet, mit der der detektierte unbekannte Gesichtsbildteil übereinstimmt, und eines Wahrscheinlichkeitswertes, der die Wahrscheinlichkeit angibt, mit der das unbekannte Gesichtsbildmuster zu der Klasse gehört.
Gerät zum Klassifizieren Gesichtsbilddaten, wobei dieses Gerät die nachfolgenden Elemente umfasst: – eine Klassifizierungsanordnung (10) trainiert zum Erkennen eines oder mehrerer Gesichtsbilder und zum Erzeugen entsprechender gelernter Modelle, die mit den Gesichtsbildern assoziiert sind, die zum Training verwendet werden, – Mittel zum wiederholten in den Klassifizierer Eingeben eines Vektors, die je Daten enthalten, die einen Teil eines zu erkennenden unbekannten Gesichtsbildes (30) darstellen, wobei bei jeder Wiederholung ein anderer Bildteil in den Klassifizierer eingegeben wird, wobei die genannte Klassifizieranordnung jeden genannten Teil des genannten unbekannten Gesichtsbildes entsprechend einem Klassifizierungsverfahren klassifiziert; – Mittel zum Identifizieren eines einzigen Klassenergebnisses aus den genannten verschiedenen Teilen, die in den genannten Klassifizierer eingegeben wurden.
Gerät nach Anspruch 11, wobei der genannte Klassifizierer Mechanismen enthält zum Vergleichen eines Teils des unbekannten Bildes mit einem entsprechenden Teil des gelernten Modellbildes für jede Klasse bei jeder Wiederholung; und zum Erhalten einer Vertrauensauswertung für jeden klassifizierten Teil.
Programmspeicheranordnung, auslesbar durch eine Maschine, die greifbar ein Programm von Instruktionen verkörpert, durchführbar durch die Maschine zum Durchführen von Verfahrensschritten zur Klassifizierung von Gesichtsbilddaten, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: a) das Trainieren einer Klassifizieranordnung (10) zum Erkennen eines oder mehrerer Gesichtsbilder und zum Erhalten entsprechender gelernter Modelle der Gesichtsbilder, die zum Trainieren verwendet werden, b) das Eingeben eines Vektors, der Daten enthält, die einen Teil eines unbekannten Gesichtsbildes (30) in den genannten Klassifizierer, c) das Klassifizieren des genannten Teils des genannten unbekannten Gesichtsbildes nach einem Klassifizierungsverfahren, d) das Wiederholen des Schrittes b) und c) unter Verwendung eines anderen Teils des genannten unbekannten Gesichtsbildes bei jeder Wiederholung, und e) das Identifizieren (28) eines einzigen Klassenergebnisses von den genannten verschiedenen Teilen, das in den gekannten Klassifizierer eingegeben wurde.