-
Die
vorliegende Erfindung bezieht sich auf Gesichtserkennungssysteme
und insbesondere auf ein System und ein Verfahren zum Durchführen von
Gesichtserkennung unter Verwendung von Verhältnissen des gelernten Modells.
-
Bestehende
Gesichtserkennungssysteme versuchen ein unbekanntes Gesicht dadurch
zu erkennen, dass es mit vorherigen Exemplaren des Gesichtes dieses
Subjektes verglichen wird. Dies geschieht typischerweise dadurch,
dass ein Klassifizierer gegenüber
vorherigen Exemplaren des Gesichtes eines Subjektes trainiert wird
und dass danach der trainierte Klassifizierer das Subjekt dadurch
erkennt, dass es mit neunen Exemplaren des Gesichtes dieses Subjektes
verglichen wird. Bekanntlich erfordert das Trainieren eines Klassifizierers
das Lernen eines Modells des Gesichtes des Subjektes. Bestehende
Systeme benutzen das ganze Modell während der Klassifizierung.
-
Während das
schlussendliche Ziel des Entwurfs eines Mustererkennungssystems
ist, die möglichst beste
(vorhersagbare) Klassifizierungsleistung zu erreichen, hat diese
Aufgabe bisher zu der Entwicklung verschiedener Klassifizierungsschemen
für ein
zu lösendes
Mustererkennungsproblem geführt.
Die Ergebnisse einer versuchsweise durchgeführten Beurteilung der verschiedenen
Entwürfe
wäre dann
die Basis einen der Klassifizierer als eine Endlösung des Problems zu wählen (Modellselektion).
Es hat sich bei derartigen Entwurfsstudien herausgestellt, dass
obschon einer der Entwürfe
die beste Leistung ergeben würde,
die Sätze
mit von den verschiedenen Klassifizierern falsch klassifizierten
Mustern einander nicht notwendigerweise überlappen, wie von Kittler
J, Hatef, H und Duin R.P. W. in dem bezugsmaterial mit dem Titel: "Combining Classifiers in
Proceedings of the 13th International Conference
on pattern Recognition" Heft
II, Seiten 897-901, Wien, Österreich
1996 erkannt. Dieses Material schlug vor, dass verschiedene Entwürfe von
Klassifizierern eventuell komplementäre Information über die
zu klassifizierenden Muster boten, die angeschirrt werden könnten um
die Gesamtleistung zu verbessern.
-
Es
war in der Anwendung von neuralen Netzwerken üblich, viele verschiedene Kandidatnetzwerke
zu trainieren und dann das beste zu selektieren, und zwar auf Basis
beispielsweise der Leistung bei einem unabhängigen Bewertungssatz und nur
dieses Netzwerk beizubehalten und den Rest weg zu werfen. Es gibt
zwei Nachteile bei einer der artigen Annäherung. Erstens ist die ganze
Anstrengung beim Training der restlichen Netzwerk Verschwendung.
Zweitens hat die Verallgemeinerungsleistung bei dem Bewertungssatz
einen beliebigen Anteil, und zwar wegen der Störung in den Daten, und folglich
könnte
es sein dass das Netzwerk mit der besten Leistung in dem Bewertungssatz
nicht das Netzwerk ist, das die beste Leistung bei neuen oder nicht gesehenen
Daten hat. Diese Nachteile können
dadurch überwunden
werden, dass die Netzwerke kombiniert werden um einen Ausschuss
von Netzwerken zu bilden. Die Bedeutung einer derartigen Annäherung ist,
dass dies zu einer wesentlichen Verbesserung der Vorhersage bei
neunen Daten führen
kann, während
dazu wenig zusätzlicher
Rechenaufwand erforderlich ist. Im Wesentlichen kann die Leistung
eines Ausschusses besser sein als die Leistung des besten einzelnen
Netzwerkes, das isoliert verwendet wird, wie von Bishop C.M. in dem
Bezugsmaterial mit dem Titel: "Neural
Networks for Pattern Recognition",
Oxford Press, Oxford UK, Seiten 364-377, 1997 erkannt.
-
Um
Gesichter zu erkennen, haben Erkennungssysteme viele Klassifizierer
benutzt, die auf Profile eines einzelnen Gesichtes trainiert waren.
Bei der Präsentation
eines Testers (Testbild) wird der Tester mit jedem gelernten Modell
zusammengebracht und die von jedem Klassifizierer erhaltenen Ergebnisse
werden benutzt um eine übereinstimmende
Entscheidung zu treffen. Ein wesentlicher Nachteil des Trainings
vieler Klassifizierer ist, dass viel Zeit und Raum verschwendet
wird beim Training und bei der Speicherung der Modelldateien.
-
Es
wäre sehr
erwünscht,
ein Gesichtserkennungssystem und eine Methodologie zu schaffen,
wobei stattdessen, dass es viele Klassifizierer gibt, die auf mehrere
Profile eines einzelnen Gesichtes trainiert werden, einen einzigen
Klassifizierer gibt, der auf entweder eine Vorderansicht eines Gesichtes
oder auf mehrere Profile eines Gesichtes einer Person trainiert
ist.
-
Es
wäre weiterhin
sehr erwünscht,
ein Gesichtserkennungssystem und ein Verfahren zu schaffen, wobei
Teile eines Modells eines Subjektes implementiert und benutzt wird
um mit verschiedenen Teilen des Gesichtes einer Person verglichen
zu werden. Das heißt,
beim testen wird ein unbekanntes Gesichtsbild dadurch identifiziert,
dass verschiedene Teile des gelernten Modells mit dem unbekannten
Gesichtsbild verglichen werden.
-
Auf
entsprechende Art und Weise ist es nun u. a. eine Aufgabe der vorliegenden
Erfindung, ein System und ein Verfahren zu schaffen, wobei ein Klassifizierer
(beispielsweise RBF Netzwerke) implementiert wird, der trainiert
werden kann, entweder eine Vorderansicht eines Gesichtes oder mehrere
Profile eines Gesichtes einer Person zu erkennen.
-
Es
ist eine weitere Aufgabe der vorliegenden Erfindung, ein Gesichtserkennungssystem
und ein Verfahren zu schaffen, wobei eine einzige Klassifizieranordnung
implementiert wird, die auf ein Frontalprofil des Gesichtes einer
Person trainiert ist und beim Testen ein unbekanntes Testbild nimmt
und dies unter Verwendung verschiedener Teile mit dem gelernten
Modell vergleicht.
-
Vorzugsweise
wird nach dem Vergleich mit jedem Teil eine Übereinstimmungswahrscheinlichkeit
ermittelt und die Ergebnisse werden danach kombiniert zum Erzielen
einer übereinstimmenden
Entscheidung. So wird beispielsweise jeder klassifizierte Teil ein
Wahlresultat ergeben. Das heißt,
wenn zehn (10) Teile verwendet werden, würden 10 Ergebnisse erhalten.
Danach wird eine einfache Abstimmregel angewandt (beispielsweise
wenn sechs (6) von zehn (10) für "A" sind, dann ist die Identität der Person "A") um die Identität des Individuums zu bestätigen.
-
Nach
den Grundlagen der vorliegenden Erfindung wird ein System und ein
Verfahren zum Klassifizieren von Gesichtsbilddaten geschaffen, wobei
das Verfahren die nachfolgenden Verfahrensschritte umfasst: das
Trainieren einer Klassifizieranordnung zum Erkennen eines oder mehrerer
Gesichtsbilder und zum Erhalten entsprechender gelernter Modelle
der zur Training verwendeten Gesichtsbilder; das Eingeben eines
Vektors mit Daten, die einen Teil eines unbekannten zu erkennenden
Gesichtsbildes darstellen, in die genannte Klassifizieranordnung;
das Klassifizieren des genannten Teils des genannten unbekannten
Gesichts entsprechend einem Klassifizierungsverfahren; das Wiederholen
des Eingabeschrittes und des Klassifizierschrittes unter Verwendung
eines anderen Teils des genannten unbekannten Gesichtsbildes bei
jeder Wiederholung; und das Identifizieren eines einfachen Klassenergebnisses
von den genannten verschiedenen Teilen, die in den genannten Klassifizierer
eingegeben worden sind.
-
Auf
vorteilhafte Weise dürfte
es einleuchten, obschon ein RBF-Klassifizierer verwendet wird, dass auch
andere Verfahren angewandt werden könnten, einschließlich Kombinationen
von mehreren wahrscheinlichen/zufälligen Verfahren.
-
Ausführungsbeispiele
der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden
näher beschrieben.
Es zeigen:
-
1 eine
allgemeine Darstellung der Architektur eines herkömmlichen
dreischichtigen Backpropagation-Netzwerkes 10, entsprechend
dem ein RBF-Netzwerk, implementiert nach den Grundlagen der vorliegenden
Erfindung, strukturiert ist,
-
2 eine
Darstellung eines Mustersatzes von Gesichtsbildern, die dem Netzwerk
zugeführt
wurden.
-
Zwecks
der Beschreibung ist ein RBF-Klassifizierer ("Radial Basis Function") implementiert worden, obschon
jede beliebige Klassifizierungsmethode/Anordnung implementiert werden
kann. Eine Beschreibung einer RBF-Klassifizieranordnung ist aus
der ebenfalls von der Anmelderin eingereichten US Patentanmeldung Nr.
09/794.443, veröffentlicht
unter der Nummer 02065267 mit dem Titel: "Classification of objects through model
ensembles", eingereicht
am 27. Februar 2001 bekannt.
-
Die
Konstruktion eines RBF-Netzwerkes, wie in der ebenfalls von der
Anmelderin eingereichten US Patentanmeldung Nr. 09/794.443, beschrieben,
wird nun anhand der 1 näher beschrieben. Wie in 1 dargestellt,
ist der Basisklassifizierer 10 des RBF-Netzwerkes entsprechend
einem herkömmlichen
dreischichtigen Backpropagation-Netzwerk 10,
das eine erste Eingabeschicht 12 aufweist, bestehend aus
Quellenknotenpunkten (beispielsweise, k Abtasteinheiten); eine zweite
oder versteckte Schicht 14 mit i Knotenpunkten, deren Funktion
es ist, die Daten zu gruppieren und die Räumlichkeit zu reduzieren; und
eine dritte oder Ausgangsschicht 18 mit j Knotenpunkten,
deren Funktion es ist, die Reaktionen 20 des Netzwerkes 10 auf
die Aktivierungsmuster zu liefern, die auf die Eingabeschicht 12 angewandt
werden. Die Transformation von dem Eingaberaum zu dem versteckten
Raum ist nicht linear, während
die Transformation von dem versteckten-Einheitraum zu dem Ausgangsraum linear
ist. Insbesondere, wie anhand des Artikels von C.M. Bishop "Neural Networks for
Pattern Recognition",
Clarendon Press, Oxford, 1997 beschrieben, kann ein RBF Klassifiziernetzwerk 10 auf
zweierlei Weise gesehen werden:
- 1) zum Interpretieren
des RBF Klassifizierers als einen Satz von Kernfunktionen, die Eingangsvektoren
in einen hochdimensionalen Raum expandieren, damit der Vorteil der
mathematischen Tatsache erhalten wird, dass es wahrscheinlicher
ist, dass ein Klassifikationsproblem in einem hochdimensionalen
Raum linear getrennt werden kann als ein Problem in einem niedrigdimensionalen
Raum; und
- 2) zum Interpretieren des RBF Klassifizierers als eine Funkfionsabbildungsinterpolationsmethode,
die versucht Hypersurfaces zu konstruieren, eine für jede Klasse,
und zwar dadurch, dass die linear Kombination der Basisfunktionen
(BF) genommen wird. Diese Hypersurfaces können als diskriminierende Funktionen gesehen
werden, wobei die Oberfläche
einen hohen Wert hat für
die Klasse, die sie darstellt und einen niedrigen Wert für alle anderen.
Ein unbekannter Eingangsvektor wird als zu der Klasse gehörend klassifiziert, die
mit der Hypersurface mit dem größten Ausgang
an diesem Punkt assoziiert ist. in diesem Fall dienen die BFs nicht
als eine Basis für
einen hochdimensionalen Raum, sondern als Komponenten in einer endlichen
Expansion der gewünschten
Hypersurface, wo die zusammensetzenden Koeffizienten (die Gewichtungen)
trainiert werden müssen.
-
Weiterhin
haben in der
1 der RBF Klassifizierer
10,
die Verbindungen
22 zwischen der Eingangsschicht
12 und
der versteckten Schicht
14 einfache Gewichtungen, wodurch
sie nicht trainiert zu werden brauchen. Die Knotenpunkte in der
versteckten Schicht
14, d.h. die als Basisfunktionsknotenpunkte
(BF) bezeichnet, haben eine Gaußsche
Impulsnichtlinearität,
spezifiziert durch einen bestimmte Mittelvektor μ
i (d.h.
zentraler Parameter) und einen Varianzvektor σ 2 / i (d.h. Breitenparameter), wobei
i = 1, ...., F ist und F die Anzahl BF Knotenpunkte ist. Es sei
bemerkt, dass σ 2 / i die
diagonalen Eingaben der Kovarianzmatrix des Gaußschen Impulses (i) darstellt.
Wenn ein D-dimensionaler Eingangsvektor X gegeben ist, liefert jeder
BF Knotenpunkt (i) einen skalaren Wert y
i,
der die Aktivierung der BF darstellt, verursacht durch diesen Eingang,
wie durch die Gleichung (1) wie folgt dargestellt:
-
Wenn
h eine Proportionalitätskonstante
für die
Varianz ist, ist x
k die k. Komponente des
Eingangsvektors X = [x
1, x
2,
..., x
D], und μ
ik und σ 2 / i sind die
k. Komponenten des mittleren bzw. Varianzvektors des Basisknotenpunktes
(i). Eingaben, die nahe bei der Mitte der Gaußschen Funktion liegen, führen zu
höheren
Aktivierungen, während
diejenigen, die weiter weg liegen, zu niedrigeren Aktivierungen
führen.
Da jeder Ausgangsknotenpunkt
18 des RBF Netzwerkes eine
lineare Kombination der BF Knotenpunktaktivierungen bildet, ist
der Teil des Netzwerkes, der die zweite (versteckte) und die Ausgangsschichten
miteinander verbindet, wie durch die Gleichung (2) dargestellt,
wie folgt:
wobei z
j der
Ausgang des j. Ausgangsknotenpunktes ist, wobei y
i die
Aktivierung des i. BF Knotenpunktes ist, wobei w
ij die
Gewichtung
24 ist, die den i. BF Knotenpunkt mit dem j.
Ausgangsknotenpunkt verbindet, und wobei w
oj die
Vorspannung oder die Schwelle des j. Ausgangsknotenpunktes ist.
Diese Vorspannung rührt
von den Gewichtungen her, die mit einem BF Knotenpunkt assoziiert
sind, der einen konstanten einfachen Ausgang hat, ungeachtet des
Eingangs.
-
Ein
unbekannter Vektor X wird klassifiziert als zu der Klasse gehörend, die
mit dem Ausgangsknotenpunkt j mit dem größten Ausgang zj assoziiert
ist. Die Gewichtungen wij in dem linearen
Netzwerk werden unter Anwendung iterativer Minimierungsverfahren,
wie Gradientenabfall nicht gelöst.
Sie werden schnell und genau unter Anwendung einer pseudoinversen
Matrixtechnik, wie in dem oben genannten Bezugsmaterial von C.M. Bishop "Neural Networks for
Pattern Recognition",
Clarendon Press, Oxford, 1997 beschrieben.
-
Eine
detaillierte Algorithmusbeschreibung des bevorzugter RBF Klassifizierers,
der in der vorliegenden Erfindung implementiert werden kann, ist
hierin in den Tabellen 1 und 2 vorgesehen. Wie in der Tabelle 1 dargestellt,
wird die Größe des RBF
Netzwerkes 10 durch Selektion von F, der Anzahl BF Knotenpunke,
bestimmt. Der geeignete Wert von F ist problemspezifisch und ist
meistens von der Dimensionalität
des Problems und der Komplexität
der zu bildenden Entscheidungsgebiete abhängig. Im Allgemeinen kann F
empirisch dadurch bestimmt werden, dass eine Varietät von Fs
versucht wird, oder F kann auf eine bestimmte konstante Zahl gesetzt
werden, die meistens größer ist
als die Eingangsgröße des Problems.
Nachdem F eingestellt ist, können
der mittlere μI und der Varianzvektor σ 2 / i der BFs unter Anwendung einer
Anzahl Methoden bestimmt werden. Sie können zusammen mit den Ausgangsgewichtungen
trainiert werden, und zwar unter Anwendung einer Backpropagation-Abfalltechnik,
dies erfordert aber meistens eine lange Trainingszeit und kann zu
suboptimalen örtlichen
Minima führen.
Auf alternative Weise können
die Mittel und die Varianzen vor dem Training der Ausgangsgewichtungen
bestimmt werden. Training der Netzwerke würde dann nur eine Bestimmung
der Gewichtungen erfordern.
-
Die
BF Mittel (Mitten) und Varianzen (Breiten) werden normalerweise
derart gewählt,
dass sie den betreffenden Raum bedecken. Es können verschiedene bekannte Techniken
angewandt werden: so implementiert eine bestimmte Technik beispielsweise
ein Gitter in gleichen Abständen
voneinander liegender BFs, die den Eingangsraum abtasten; eine andere
Technik implementiert einen Gruppierungsalgorithmus, wie k-Mittel zum
bestimmen des Satzes mit BF Zentren; andere Techniken implementieren
gewählte
beliebige Vektoren aus dem Trainingssatz als BF Zentren, wobei sicher
gestellt wird, dass jede Klasse dargestellt wird.
-
Wenn
die BF Zentren oder Mittel einmal bestimmt worden sind, können die
BF Varianzen oder Breiten σ 2 / i eingestellt
werden. Sie können
auf einen globalen Wert festgelegt oder derart eingestellt werden,
dass sie die Dichte der Datenvektoren in der Nähe des BF Zentrums reflektieren.
Außerdem
wird ein globaler Proportionalitätsfaktor
H für die
Varianzen eingeschlossen, damit eine Neuskalierung der BF Breiten
ermöglicht
wird. Dadurch, dass der Raum von H für Werte, die zu einer guten
Leistung führen,
gesucht wird, wird der geeignete Wert bestimmt.
-
Nachdem
die BF Parameter eingestellt sind, ist der nächste Schritt das Training
der Ausgangsgewichtungen wij in dem linearen
Netzwerk. Einzelne Trainingsmuster X(p) und deren Klassenanhänger C(p)
werden dem Klassifizierer präsentiert
und die resultierenden BF Knotenpunktausgänge yI(p)
werden berechnet. Diese und gewünschte
Ausgänge
dj(p) werden danach benutzt um die F × F Korrelationsmatrix "R" und die F × M Ausgangsmatrix "B" zu bestimmen. Es sei bemerkt, dass
jedes Trainingsmuster eine R und eine B Matrix erzeugt. Die endgültigen R
und B Matrizen sind das Ergebnis der Summe von N einzelnen R und
M Matrizen, wobei N die gesamte Anzahl Trainingsmuster ist. Wenn
alle N Muster dem Klassifizierer präsentiert worden sind, werden
die Ausgangsgewichtungen wij bestimmt. Die
endgültige
Korrelationsmatrix R wird invertiert und wird zum bestimmen von
jedem wij benutzt.
-
-
Wie
in der Tabelle 2 dargestellt, erfolgt die Klassifizierung durch
Präsentation
eines unbekannten Eingangsvektors Xtest zu
dem trainierten Klassifizierer und durch Berechnung der resultierenden
BF Knotenpunktausgänge
yi. Diese Werte werden danach zusammen mit
den Gewichtungen wij verwendet um die Ausgangswerte
zj zu berechnen. Der Eingangsvektor Xtest wird danach als zu der Klasse gehörend, die
mit dem Ausgangsknotenpunkt j mit dem größten zj Ausgang
assoziiert ist.
-
-
Bei
dem Verfahren nach der vorliegenden Erfindung besteht der RBF Eingang
aus auf n-Größe normalisierten
Grauskala-Gesichtsbildern, die dem Netzwerk als eindimensional zugeführt werden,
d.h. als 1-D Vektoren. Die versteckte (nicht überwachte) Schicht 14 implementiert
eine "verbesserte" k-Mittelgruppierungsprozedur,
wie die beschrieben worden ist in dem Artikel von S. Gutta J. Huang,
P. Jonathon und H. Wechsler: "Mixture
of Experts for Classification of Gender, Etnic, Origin and Pose
of Human Faces",
IEEE Transaction on Neural Networks" 11 (4):948-960, Juli 2000, wobei die
Anzahl Gaußschen
Gruppenknotenpunkte und deren Varianzen dynamisch eingestellt werden.
Die Anzahl Gruppen kann variieren, in Fünferschritten, beispielsweise
von 1/5 der Anzahl Trainingsbilder bis N, die gesamte Anzahl Trainingsbilder.
Die Größe σ der Gaußschen für jede Gruppe
wird auf Maximum gesetzt (den Abstand zwischen der Mitte der Gruppe
und dem am weitesten entfernt liegenden Mitglied innerhalb des Klassendurchmesser,
den Ab stand zwischen der Mitte der Gruppe und dem am nächsten liegenden
Muster von allen andern Mustern) multipliziert mit einem Überlappungsfaktor o,
hier gleich 2. Die Größe wird
weiterhin dynamisch verfeinert, und zwar unter Verwendung verschiedener Proportionalitätskonstanten
h. Die versteckte Schicht 14 ergibt das Äquivalent
einer funktionellen Formbasis, wobei jeder Gruppenknotenpunkt einige
gemeinsame Kennzeichen über
den Formraum codiert. Die Ausgangsschicht (überwacht) bildet Gesichtscodierungen
(Expansionen) in einem derartigen Raum zu den entsprechenden ID
Klassen ab und findet die entsprechende Expansionskoeffizienten
(Gewichtung) unter Anwendung von Pseudoinvertierten Techniken. Es
sei bemerkt, dass die Anzahl Gruppen für diese Konfiguration gestoppt
wurde (Anzahl Gruppen und spezifische Proportionalitätskonstante
h), was 100% Genauigkeit bei der ID Klassifizierung gibt, wenn an
denselben Trainingsbildern getestet.
-
Nach
der vorliegenden Erfindung sind die Eingangsvektoren, die zum Training
verwendet werden, komplette Gesichtsbilder, beispielsweise die Gesichtsbilder 30 aus 2,
die je beispielsweise 64 × 72
Pixel enthalten. Nach der vorliegenden Erfindung wird eine einziger
Klassifizierer (RBF Netzwerk) 10 mit diesen kompletten
Bildern trainiert. Aber während
des wirklichen Testvorgangs werden verschiedene Teile des Testbildes
mit verschiedenen Teilen des Modells verglichen. So ist beispielsweise
der Schritt 2 des in der Tabelle 2 dargestellten Klassifizierungsalgorithmus
ein iterativer Prozess, der eine Subtrahierung des unbekannten Testbildes
von einem anderen Teil des gelernten Modells in jeder Iteration
durchführt.
Das Training ist, dass bei der ersten Wiederholung an einem kompletten
Gesicht ein komplettes Bild und ein Xtest (komplettes
Bild) eingegeben werden. Es wird dann ein erstes Ausgangsergebnis
erhalten, das ein Vertrauensmaß (Wahrscheinlichkeitsmaß) umfasst,
beispielsweise wie in dem Schritt 2(c) in der Tabelle 2 dargestellt,
mit einem Wert zwischen 0 und 1, und einen Anhänger, der den Klassenanhänger (gelerntes
Modell) identifiziert. Bei jeder Wiederholung werden drei Schritte
wiederholt, wobei jedes Mal ein anderer Prozentsatz des Bildes verwendet wird,
d.h. Teile des gelernten Modells. So kann beispielsweise in einer
nächsten
Wiederholung ein kleinerer Teil des unbekannten Bildes, beispielsweise
90% verwendet werden, dies im Vergleich zu den entsprechenden 90%
des gelernten Modellbildes für
jede Klasse, usw. Durch jeden Vergleich wird ein weiteres Vertrauensmaß (Wahrscheinlichkeit)
und ein Anhänger,
der die Klasse (gelerntes Modell) identifiziert durch die Klassifizieranordnung
bestimmt. Auf diese Weise befindet sich, wie in der Tabelle 2 angegeben,
das Ganze des Schrittes 2(a) in einer Schleife, wobei der Prozess viele
Male wiederholt wird, und zwar je nach der Anzahl gewünschter Teile.
So können
beispielsweise je nach Selektion eines Benutzers die verwendeten
Xtest Bildteile von maximal (beispielsweise
100% des kompletten Bildes) bis minimal (beispielsweise 50% des
kompletten Bildes reichen mit einem 10% oder 5% Teilreduktion bei
jeder Wiederholung. Wie in der ebenfalls von der Anmelderin eingereichten
US Patentanmeldung Nr. 09/966436, veröffentlicht als US02001/966436
mit dem Titel "System
and method of face recognition through ½ faces" wenn das minimale Bild verwendet wird,
d.h. 50%, ist es unbedingt erforderlich, dass wenigstens ein Auge,
eine halbe Nase und ein halber Mund des Gesichtsbildes eingefangen
wird, beispielsweise ein vertikaler Teil des Bildes. Die Körnigkeit
der Teilreduktion bei jeder Wiederholung kann eine vom Benutzer
selektierbare Option sein und kann davon abhängig sein, wie gut die Daten
sind sowie von den Rechenkosten. Es sei bemerkt, dass es zwischen
der Leistung und den Kosten ein Kompromiss gibt. So ist beispielsweise
je nach dem erwünschten
Sicherheitspegel, d.h. je sicherer die Applikation, umso feinere
Körnigkeit
der Teilreduktion bei jeder Wiederholung und umso größer die
Anzahl Vergleiche zu mehr Kosten durchgeführt werden müssen. Für den Fall
von 100% bis 50% in 10% Bildreduktionsteilen bei jedem Schritt werden
insgesamt sechs (6) Vertrauensergebnisse und Klassenanhänger geschaffen,
wobei bei 5% Bildreduktionsteilen bei jedem Schritt insgesamt zwölf (12)
für jede
Klasse entstehen. Nachdem die Ergebnisse akkumuliert worden sind,
können
Regeln angewandet werden um die Klasse für dieses Testbild zu bestimmen.
So können
beispielsweise die Ergebnisse kombiniert werden um zu einer übereinstimmenden
Entscheidung zu gelangen. Eine einfache Klasse kann aber Hauptregel
sein, anspruchsvollere Regeln können
aber auch angewandt werden, beispielsweise wie in dem Bezugsmaterial
von J. Kittler, M.Hateg, und R.P.W. Duin mit dem Titel: "Combining Classifiers", "Proc. Of the 13th
International Conference on Pattern Recognition, II" 897-901, Wien, Österreich,
August 1996 beschrieben. So wird beispielsweise jeder klassifizierte
Teil eine Bewertung erzeugen und wenn zehn (10) Teile verwendet
werden, werden 10 Bewertungen erhalten. Danach wird eine einfache
Hauptentscheidungsregel angewandt (beispielsweise wenn sechs (6)
von zehn (10) für "A" sind, dass ist die Identität des Subjektes "A"), um die Identität der Person (Klasse) zu bestätigen. In
Reaktionen darauf werden viele Bewertungen erzeugt und in dem Klassifizierer
ist, wie in 1 dargestellt, eine Selektionsanordnung 28 mit
Logik versehen zum Anwenden von Bewertungsregeln zum Erzielen einer
geeigneten Entscheidung.
-
Während dargestellt
und beschrieben worden ist, was als bevorzugte Ausführungsformen
der vorliegenden Erfindung betrachtet wird, dürfte es selbstverständlich einleuchten,
dass mehrere Modifikationen und Änderungen
in Form und Einzelheit im Rahmen der vorliegenden Erfindung durchgeführt werden
können.
Deswegen beschränkt
sich die vorliegende Erfindung nicht auf die exakt beschriebenen
und dargestellten Formen, sondern sie soll alle Modifikationen decken,
die in den Rahmen der beiliegenden Patentansprüche fallen.
-
Text in der Zeichnung
-
1
-
- Selektion des Maximums
- Lineare Gewichtungen
- Ausgangsknotenpunkte
- Basisknotenpunkte einfache Gewichtungen
- Eingangsknotenpunkte