DE102007056528B3

DE102007056528B3 - Verfahren und Vorrichtung zum Auffinden und Verfolgen von Augenpaaren

Info

Publication number: DE102007056528B3
Application number: DE102007056528A
Authority: DE
Inventors: Enrico Zschau
Original assignee: SeeReal Technologies SA
Current assignee: SeeReal Technologies SA
Priority date: 2007-11-16
Filing date: 2007-11-16
Publication date: 2009-04-02
Anticipated expiration: 2027-11-17
Also published as: KR20100105591A; CN101861118B; JP5470262B2; CN101861118A; JP2011508289A; KR101550474B1; US20100303294A1; US8477996B2; TWI366454B; TW200938162A; WO2009062945A1

Abstract

Bei einem Verfahren zum Auffinden und anschließendem Verfolgen der 3D-Koordinaten eines Augenpaares in zumindest einem Gesicht werden die Schritte vorgeschlagen Empfangen von Bilddaten, enthaltend eine Sequenz zumindest eines digitalen Videosignals von zumindest einem Bildsensor, Auffinden von Augen oder Verfolgen von bereits aufgefundenen Augen in den Bilddaten, Ermitteln der 3D-Koordinaten der aufgefundenen oder verfolgten Augen, Zuordnen der aufgefundenen oder verfolgten Augen zu einem Augenpaar und Bereitstellen der 3D-Koordinaten des Augenpaares, wobei das Auffinden von Augen in den Bilddaten die Schritte umfasst Erkennen von einem oder mehreren Gesichtern in den Bilddaten, Ermitteln der 3D-Koordinaten zumindest eines erkannten Gesichtes, Festlegen eines ersten Suchbereiches auf dem erkannten Gesicht und Auffinden zumindest eines Auges im ersten Suchbereich, und wobei das Verfolgen von bereits aufgefundenen Augen in den Bilddaten die Schritte umfasst Festlegen eines zweiten Suchbereiches auf dem erkannten Gesicht und Verfolgen der Augen des Augenpaares im zweiten Suchbereich.

Description

Die vorliegende Erfindung betrifft ein kontaktfreies Verfahren zum Auffinden und anschließendem Verfolgen der 3D-Koordinaten eines Augenpaares in zumindest einem Gesicht in Echtzeit.
Kontaktfreie Verfahren zum Auffinden und Verfolgen von Gesichtern benötigen, anders als zum Beispiel Kontaktverfahren, keine zusätzlichen Hilfsmittel, wie zum Beispiel eine am Kopf befestigte Kamera oder Spots. Der Vorteil dieser kontaktfreien Verfahren liegt darin, dass die Bewegungsfreiheit der zu verfolgenden Subjekte nicht in irgendeiner Art und Weise durch Hilfsmittel beschränkt wird oder die Subjekte durch die Benutzung von Hilfsmitteln belastet werden.
Kontaktfreie Erkennungs- und Verfolgungsverfahren sind aus dem Stand der Technik bekannt. So offenbaren z. B. US 6 539 100 B1 und EP 0 350 957 B1 , wie anhand bestimmter Gesichts- und Augenmerkmale, die aus aufgenommenen Bildern extrahiert werden, die Blickrichtung eines Betrachters festgestellt wird. Während US 6 539 100 B1 beschreibt, wie mittels eines Verfahrens erkannt wird, welches Objekt ein Betrachter ansieht, hat EP 0 350 957 B1 darüber hinaus die Verfolgung der Augenbewegung über einen Zeitablauf zum Ziel.
DE 197 31 303 A1 offenbart ein Verfahren und eine Vorrichtung zum kontaktlosen, helmfreien Messen der Blickrichtung von Augen auch bei größeren und schnelleren Kopf- und Augenbewegungen. Dabei wird das Auge mit Infrarotlicht beleuchtet, durch ein optisches System abgebildet, von mindestens einem Bildsensor aufgenommen und das so gewonnene Bild anschließend in einem, durch einen Hauptprozessor konfigurierbaren Blickrichtungs-Prozessor zur Bestimmung der Blickposition durch Ermittlung der Position der Pupillenmitte und kornealen Reflexionen weiterverarbeitet und auf einem Monitor angezeigt wird.
Auch in WO 03/079 902 A1 wird ein Verfahren zur kontaktfreien Erkennung und Verfolgung von Augen bei unterschiedlichen Lichtverhältnissen in Echtzeit beschrieben. Die Erkennung von Augen erfolgt hierbei durch die Schritte Aufnahme von zwei aktiv beleuchteten Bildern, wobei ein Bild den „Bright-Pupil-Effect" und das andere Bild den „Dark-Pupil-Effect" der Augen wiedergibt, Bildung eines Differenzbildes aus diesen beiden Bildern, wobei das resultierende Differenzbild nur an den Stellen Kontraste aufweist, an welchen die Kontraste der beiden Bilder ungleich waren, Markieren der Kontraststellen auf dem Differenzbild als mögliche Augen und Vergleich der möglichen Augen mit vorab erfassten Bildern von Augen und Nicht-Augen als Referenz, um mit hoher Wahrscheinlichkeit Augen von Nicht-Augen auf dem Differenzbild unterscheiden zu können. Die Verfolgung der Augen wird in einem auf die Erkennung nachfolgenden Bild durch Anwendung einer Kalman-Filterung und Vergleich der erwarteten Position der Augen mit einer im Differenzbild ermittelten Position von Augen durchgeführt. Falls der Vergleich keine Ergebnisse liefert, wird in einem weiteren Schritt die Position der Augen durch einen Clustering-Algorithmus ermittelt, welcher die möglichen Augenpositionen anhand ihrer Intensitäten im Bild clustert und mit der erwarteten Position vergleicht.
Dieses vorbekannte Verfahren weist verschiedene Nachteile auf. Einerseits wird zur Erkennung und Verfolgung der Augen ein Bild verwendet, welches durch ein Zeilensprungverfahren aus einem Bild mit „Bright-Pupil-Effect" und einem Bild mit „Dark-Pupil-Effect" der Augen entsteht, wobei beide Bilder nicht durch einen Bildsensor zeitgleich, sondern zeitlich nacheinander, aufgenommen werden. Eine zeitlich nicht koinzidente Bildaufnahme verbunden mit der Überlagerung der Bilder durch das Zeilensprungverfahren, welches der Reduzierung der Bilddatenmenge bei der Übertragung dient, verhindert ein Erkennen und Verfolgen der Augen in Echtzeit. Andererseits können mit dem Verfahren nur zum Bildsensor räumlich nahe Augen erkannt und verfolgt werden, da die Wirkung der durch die aktive Beleuchtung entstehenden Effekte mit zunehmender Entfernung der Augen von der Beleuchtungsquelle abnimmt, was dazu führt, dass sich die zu erkennenden Augen von anderen Objekten oder von Rauschen auf dem Differenzbild nicht mehr unterscheiden lassen.
WO2007/019842 A2 versucht diesen Nachteilen entgegenzuwirken, indem die Positionsfindung der Augen innerhalb eines hierarchischen Ablaufs umgesetzt wird, so dass die zu verarbeitende Datenmenge ausgehend von der Datenmenge des gesamten Videoframes (VF) zu einem Gesichts-Zielbereich (GZ) und nachfolgend einem Augen-Zielbereich (AZ) sukzessive eingeschränkt wird. Darüber hinaus wird eine Instanz oder eine Gruppe von Instanzen jeweils auf einer eigenen Recheneinheit parallel ablaufend durchgeführt. Aus WO2007/019842 geht indessen nicht hervor, wie die Augen erkannt und getrackt werden.
Die Erkennung und Verfolgung von Augen in Echtzeit ist jedoch eine wichtige Anforderung bei der Interaktion zwischen Mensch und Maschine. Es ist daher besonders wünschenswert, Verfahren zur Erkennung und Verfolgung von Augen bereitzustellen, die ein genaues Auffinden und Verfolgen der Augen in Echtzeit ermöglichen.
Besonders beim Einsatz in dynamischen Anwendungen, bei denen große und schnelle Bewegungen der Gesichter in allen Raumrichtungen möglich sind, ist eine exakte und effiziente Ermittlung der Positionen auch in der Z-Richtung erforderlich. Derartige dynamische Anwendungen können beispielsweise autostereoskopische oder holographische Displays sein, bei welchen der entsprechende Bildeindruck nur eintritt, wenn die Augenpositionen der Betrachter räumlich und zeitlich exakt bestimmt wurden, so dass die autostereoskopische oder holographische Bildwiedergabe für die tatsächlichen Augenpositionen bereitgestellt wird. Im Gegensatz dazu ist bei den aus dem Stand der Technik bekannten stationären Anwendungen, wie beispielsweise der Überwachung von Fahrern und Piloten, der Erkennungs- und Verfolgungsbereich gering, da bei diesen Anwendungen üblicherweise der Bewegungsbereich der Subjekte in allen Raumrichtungen auf ein Minimum begrenzt ist.
Die aus dem Stand der Technik bekannten Verfahren weisen des Weiteren beim Auffinden und Verfolgen von mehr als einem Gesicht die Problematik auf, dass die Positionen der Augen nicht mehr in Echtzeit lieferbar sind.
Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren bereitzustellen, dass in allen drei Raumrichtungen eines hinreichend großen Erkennungs- und Verfolgungsbereiches bei geringem Rechenaufwand das effiziente und genaue Auffinden und Verfolgen der Augenpositionen von einem oder mehreren Gesichtern verlässlich in Echtzeit ermöglicht. Es ist insbesondere Aufgabe der vorliegenden Erfindung, das effiziente und genaue Auffinden mindestens eines Auges zu ermöglichen.
Erfindungsgemäß wird diese Aufgabe dadurch gelöst, dass ein Verfahren vorgeschlagen wird, dass die Schritte Empfangen von Bilddaten, die als Sequenz von ein oder mehreren Videosignalen von zumindest einem Bildsensor geliefert werden, Auffinden von Augen oder Verfolgen von bereits aufgefundenen Augen in den Bilddaten, Ermitteln der 3D-Koordinaten der aufgefundenen oder verfolgten Augen, Zuordnen der aufgefundenen oder verfolgten Augen zu Augenpaaren und Bereitstellen der 3D-Koordinaten der Augenpaare aufweist.
Die Bilddaten werden in der bevorzugten Ausführung als Videosequenz, welche von mindestens einem Bildsensor aufgenommen wird, empfangen. Ein Empfang der Bilddaten ist darüber hinaus auch in anderen Übertragungsformen, wie beispielsweise als Einzelbilder, möglich.
Der Verfahrensschritt des Auffindens von Augen umfasst dabei die Schritte Erkennen von einem oder mehreren Gesichtern in den Bilddaten, Ermitteln der 3D-Koordinaten zumindest eines erkannten Gesichtes, Festlegen eines ersten Suchbereiches auf dem erkannten Gesicht und Auffinden zumindest eines Auges im ersten Suchbereich. Die Erkennung von Gesichtern in den Bildern ist in verschiedenen Ausführungen, auf die hier voll umfänglich Bezug genommen wird, aus dem Stand der Technik bekannt, wobei die erkannten Gesichter üblicherweise als 2D-Koordinaten für die Gesichtspositionen ausgegeben werden. Die Ermittlung der Z-Koordinate, so dass die Gesichtsposition durch 3D-Koordinaten repräsentiert sind, kann durch eine hier bevorzugte Stereoanalyse der empfangenen Bilddaten von zwei Bildsensoren, wie im Stand der Technik bekannt, oder durch ein anderes bekanntes Verfahren, wie zum Beispiel eine Entfernungsmessung, durchgeführt werden. Durch die Ermittlung der 3D-Koordinaten des Gesichtes kann durch Anwendung bekannter Modelle von Augenpositionen auf Gesichtern ein Bereich festgelegt werden, in welchem zumindest ein Auge des Gesichtes mit großer Wahrscheinlichkeit liegt. Für den Fall, dass keines der Modelle auf das erkannte Gesicht anwendbar ist, kann der festzulegende Bereich für die Suche der Augen auch das erkannte Gesicht vollständig umfassen. Dieser Bereich wird nachfolgend als der erste Suchbereich für Augen verstanden und die nachfolgenden Schritte des Auffindens beschränken sich auf diesen ersten Suchbereich. Im nächsten Schritt wird im ersten Suchbereich zumindest ein Auge aufgefunden. Für den Fall, dass kein Auge aufgefunden wird, wird angenommen, dass für das Gesicht in diesem Bild beispielsweise auf Grund von geschlossenen Augenlidern kein Auge auffindbar ist und das Auge damit als nicht vorhanden anzusehen ist. In allen anderen Fällen werden das oder die gefundenen Auge(n) für jedes Gesicht in den nachfolgenden Verfahrensschritten weiter verwendet. Das Auffinden von Augen in einem kleineren Suchbereich führt üblicherweise schneller zu Ergebnissen als in einem Suchbereich, der das vollständige Gesicht oder das gesamte Bild umfasst.
Für die aufgefundenen Augen werden in einem weiteren Verfahrensschritt die 3D-Koordinaten ermittelt. Hierbei wird in einer bevorzugten Ausführung wiederum eine Stereoanalyse angewendet, aber auch jede andere bekannte Methode zur Ermittlung von 3D-Koordinaten eines Objektes ist möglich. Nachfolgend wird eine Zuordnung der aufgefundenen Augen zu Augenpaaren vorgenommen, wobei entweder der Abstand von jeweils zwei Augen, der aus den 3D-Koordinaten der Augen berechenbar ist, mit dem bekannten Abstand von Augen eines Augenpaarmodells verglichen wird oder ein anderes geeignetes Zuordnungsverfahren, wie beispielsweise die hier bevorzugte Klassifikation, eingesetzt wird. Für eine Weiterverwendung der aufgefundenen Augen als Augenpaare ist es vorteilhaft, die 3D-Koordinaten der Augenpaare zu ermitteln, da daraus die Positionen der Augen und des Gesichtes durch bekannte Gesicht-Augen-Modelle ermittelbar sind und dadurch die Menge an Daten, welche zur anschließenden Verfolgung eines gefundenen Gesichtes erforderlich sind, reduziert wird.
Das Verfolgen von bereits aufgefundenen Augenpaaren umfasst grundsätzlich die Schritte Festlegen zumindest eines zweiten Suchbereiches auf dem erkannten Gesicht und Verfolgen der Augen des Augenpaares in diesem Suchbereich. Gemäß einem Aspekt wird für jedes Auge ein zweiter Suchbereich festgelegt. Die aus dem Schritt des Auffindens von Augen ermittelten Augenpaare werden hier als Ausgangspunkt für die Verfolgung weiter verwendet. Aus den 3D-Koordinaten der Augen werden die Bereiche definiert, in welchen die Augen für das betrachtete Augenpaar verfolgt werden. Die so definierten Bereiche, welche vorzugsweise kleiner als die ersten Suchbereiche sind, werden nachfolgend als zweite Suchbereiche zum Verfolgen der Augen verwendet. Das so definierte Verfolgen der Augenpaare ermöglicht die Festlegung hinreichend kleiner zweiter Suchbereiche auch bei deutlicher Bewegung der Augen oder des Gesichts, was wiederum das Verfolgen der Augenpaare in Echtzeit ermöglicht.
Dabei umfasst das Auffinden von zumindest einem Auge weiterhin die nachfolgenden Schritte Berechnen einer erwarteten Größe eines Augenbestandteiles abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor, Berechnen eines Grauwertes als Schwellwert für eine Segmentierung im ersten Suchbereich abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor, Vorverarbeiten des ersten Suchbereiches zur Erhöhung des Kontrasts, Segmentieren des ersten Suchbereiches nach der Vorverarbeitung, Berechnen ein oder mehrerer Verbundenen-Regionen im segmentierten ersten Suchbereich, wobei die Verbundenen-Region eine Zusammenfassung von benachbarten Bildpunkten mit zumindest annähernd gleichem Grauwert ist, Ermitteln einer Größe einer jeden berechneten Verbundenen-Region und Vergleichen der erwarteten Größe des Augenbestandteils mit der ermittelten Größe der Verbundenen-Region, wobei die Verbundenen-Region ein aufgefundenes Auge ist, wenn die ermittelte Größe der Verbundenen-Region mit der erwarteten Größe des Augenbestandteils zumindest annähernd übereinstimmt. Hierdurch wird der Kontrast in den Bilddaten so verändert, dass sich die relevanten Augenbestandteile von anderen Objekten in den Bilddaten deutlicher unterscheiden. Dadurch wird unter anderem ermöglicht, dass Augen, die sich vom Bilddaten gebenden Bildsensor weiter weg befinden, trotzdem durch das Verfahren auffindbar sind.
Gemäß einem Aspekt der Erfindung umfasst die Vorverarbeitung eine Grauwert-Histogramm-Egalisierung im ersten Suchbereich.
Gemäß einem weiteren Aspekt der Erfindung umfasst das Verfolgen von bereits aufgefundenen Augen weiterhin die nachfolgenden Schritte Berechnen einer erwarteten Größe eines Augenbestandteiles abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor, Ermitteln eines minimalen Grauwertes im zweiten Suchbereich und Iterieren über einen Grauwert als Schwellwert im zweiten Suchbereich, wobei die Iteration abbricht, wenn zumindest zwei Augen erkannt wurden. Die Iteration enthält die Schritte Berechnen des Grauwertes als Schwellwert für eine Segmentierung im zweiten Suchbereich abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor, vom aktuellen Iterationsschritt und dem minimalen Grauwert, Segmentieren des zweiten Suchbereiches, Berechnen ein oder mehrerer Verbundenen-Regionen im segmentierten zweiten Suchbereich, wobei die Verbundenen-Region eine Zusammenfassung von benachbarten Bildpunkten mit zumindest annähernd gleichem Grauwert ist, Ermitteln einer Größe einer jeden berechneten Verbundenen-Region und Vergleichen der erwarteten Größe des Augenbestandteils mit der ermittelten Größe der Verbundenen-Region, wobei die Verbundenen-Region ein verfolgtes Auge ist, wenn die ermittelte Größe der Verbundenen-Region mit der erwarteten Größe des Augenbestandteils zumindest annähernd übereinstimmt. Diese Verfahrensschritte führen dazu, dass das Verfolgen von insbesondere entfernteren Augen in Echtzeit durchführbar ist und hinsichtlich der 3D-Koordinaten der Augen genauere Ergebnisse lieferbar sind, als das mit herkömmlichen Verfahren möglich wäre.
Gemäß einem weiteren Aspekt der Erfindung wird die Segmentierung der Suchbereiche durch ein effizientes Verfahren, wie zum Beispiel ein Binarisierungsverfahren durchgeführt. Weiterhin wird in einer bevorzugten Ausführung die Zuordnung von Augen zu Augenpaaren durch eine Klassifizierung mittels einer Stützvektormaschine („Support Vector Machine") durchgeführt, welche anhand von Ähnlichkeiten aus vorgegebenen Augen und Nicht-Augen mit den aufgefundenen Augen erkennt, welche Augen zu einem Augenpaar gehören. Die Zuordnung von Augen zu Augenpaaren ist dabei weder auf eine Klassifizierung noch auf die Verwendung einer Support Vector Machine beschränkt.
Die Erfindung betrifft ferner ein Computerprogramm, dass, wenn es auf einem Computer abläuft, diesen steuert, das erfindungsgemäße Verfahren auszuführen.
Darüber hinaus betrifft die Erfindung eine Vorrichtung zum Auffinden und anschließenden Verfolgen der 3D-Koordinaten eines Augenpaares in zumindest einem Gesicht mit Mitteln zum Empfang von Bilddaten, die eine Sequenz zumindest eines digitalen Videosignals von zumindest einem Bildsensor enthalten, Mitteln zum Auffinden von Augen in den Bilddaten, Mitteln zum Verfolgen von bereits erkannten Augen in den Bilddaten, Mitteln zum Ermitteln der 3D-Koordinaten der aufgefundenen oder verfolgten Augen, Mitteln zum Zuordnen der aufgefundenen oder verfolgten Augen zu einem Augenpaar und Mitteln zum Bereitstellen der 3D-Koordinaten des Augenpaares. Die Mittel zum Verfolgen von bereits erkannten Augen in den Bilddaten umfassen weiterhin Mittel zum Erkennen von einem oder mehreren Gesichtern in den Bilddaten, Mittel zum Ermitteln der 3D-Koordinaten zumindest eines erkannten Gesichtes, Mittel zum Festlegen eines ersten Suchbereiches auf dem erkannten Gesicht und Mittel zum Auffinden zumindest eines Auges im ersten Suchbereich. Die Mittel zum Verfolgen von bereits aufgefundenen Augen in den Bilddaten weisen dabei insbesondere Mittel zum Festlegen eines zweiten Suchbereiches auf dem erkannten Gesicht und Mittel zum Verfolgen der Augen des Augenpaares im zweiten Suchbereich auf.
Weitere vorteilhafte Aspekte der Erfindung sind in den Unteransprüchen definiert.
Bevorzugte Ausführungsformen der Erfindung werden nachfolgend rein beispielhaft und ohne jegliche Beschränkung anhand der beigefügten Zeichnungen erläutert, in denen:
1: ein Ablaufdiagramm eines erfindungsgemäßen Verfahrens;
2: ein Ablaufdiagramm des Auffindens von Augen gemäß einer Ausführungsform der Erfindung;
3: eine Darstellung von Bilddaten mit festgelegten ersten Suchbereichen auf einem Gesicht gemäß einer Ausführungsform der Erfindung;
4: ein Ablaufdiagramm des Verfolgens von bereits aufgefundenen Augen gemäß einer Ausführungsform der Erfindung;
5: eine Darstellung von Bilddaten mit festgelegten zweiten Suchbereichen auf einem Gesicht gemäß einer Ausführungsform der Erfindung;
6: ein Ablaufdiagramm des Zuordnens von Augen zu einem Augenpaar gemäß einer Ausführungsform der Erfindung;
7: eine Vorrichtung gemäß einer Ausführungsform der Erfindung; und
8: einen Ablauf eines Computerprogramms in objektorientierter Ausführung gemäß einer Ausführungsform der Erfindung zeigt.
1 zeigt eine erste Ausführungsform des erfindungsgemäßen Verfahrens, welches geeignet ist, die Augen von bis zu vier Betrachtern bei einer Bildwiederholfrequenz von mindestens 25 Hz in Echtzeit aufzufinden und zu verfolgen. Mit dem Verfahren sind daher bis zu vier Betrachter mit einer Erkennungs- und Verfolgungsfrequenz von mindestens 25 Bildern pro Sekunde oder ein Betrachter mit einer Erkennungs- und Verfolgungsfrequenz von beispielsweise 60 Bildern pro Sekunde verarbeitbar. Dabei werden Bilddaten, die von einem oder mehreren Bildsensoren aufgenommen und als Videosequenz über Übertragungsmittel, wie beispielsweise eine serielle Schnittstelle, übertragen werden, im Schritt 110 empfangen. Die vom Bildsensor aufgenommenen Bilddaten sind in der hier bevorzugten Ausführungsform durch eine aktive Beleuchtung beleuchtet. Dabei wird bei der Bildaufnahme durch den Bildsensor der Erfassungsbereich des Bildsensors mit Hilfe von Licht beleuchtet. Bevorzugt ist die Beleuchtung mit infrarotem Licht, welches in einer Ausführungsform der Erfindung eine Wellenlänge im Bereich von ca. 700 bis 950 nm und insbesondere von ca. 850 nm hat. Durch die aktive Beleuchtung werden die Augen der Subjekte auf den Bilddaten hervorgehoben.
Der sogenannte „Dark-Pupil-Effect", bei dem die Pupille gegenüber ihrer Umgebung besonders dunkel abgebildet wird, entsteht dabei, wenn die aktive Beleuchtung relativ zur optischen Achse des Bildsensors entfernt angeordnet ist. Beim „Bright-Pupil-Effect" ist die aktive Beleuchtung nahe zur optischen Achse des Bildsensors angeordnet, so dass ähnlich zum Rote-Augen-Effekt beim Fotografieren, das ausgestrahlte Licht an der Rückseite des Auges reflektiert und vom Bildsensor aufgenommen wird.
Der „Dark-Pupil-Effect" ist gemäß einer Ausführungsform bevorzugt. Weitere Effekte, wie zum Beispiel der „Bright-Pupil-Effect", der die Pupille gegenüber ihrer Umgebung besonders hell erscheinen lässt, sind ebenfalls einsetzbar, um dadurch die Augen bzw. die relevanten Teile davon von der Umgebung unterscheidbar werden zu lassen.
Die Bildsensoren in Verbindung mit der aktiven Beleuchtung sind dazu ausgelegt, ein Erkennen und Verfolgen von Augen in den folgenden Schritten auch in größerem Abstand von den Bildsensoren möglichst fehlerfrei durchzuführen. Der Erfassungsbereich wird dabei nicht durch das erfindungsgemäße Verfahren sondern durch die eingesetzten Bildsensoren beschränkt. In der hier bevorzugten Ausführungsform umfasst dieser Erfassungsbereich abhängig von den eingesetzten Bildsensoren einen Abstand von ca. 0,5 bis 3,5 m von den Bildsensoren. Größere Erfassungsbereiche sind durch andere Bildsensoren mit dem erfindungsgemäßen Verfahren gleichfalls möglich. Die Bilddaten können dabei durch bekannte Verfahren zur Videodatenkomprimierung komprimiert werden oder als unveränderte Bilder zur weiteren Bearbeitung vorliegen.
Die empfangenen Bilddaten werden der Erkennung von Gesichtern im Schritt 115 zugeführt. Das Erkennen von Gesichtern erfolgt durch bekannte Gesichtserkennungsverfahren. Das Erkennen eines Gesichtes in Schritt 115 in den Bilddaten erfolgt dabei üblicherweise mit Hilfe einer Mustererkennung. Nachdem ein Gesicht erkannt wurde, werden die Koordinaten, vorzugsweise als 3D-Koordinaten, zur Bestimmung der räumlichen Position des Gesichtes zum Bildsensor ermittelt. Der Ursprung des Koordinatensystems für die 3D-Koordinaten wird vor Ablauf des Verfahrens bestimmt und ist in der hier bevorzugten Ausführung bei einem Bildsensor durch die optische Achse des Bildsensors und den Bildsensor selbst bestimmt und in einer Ausführung mit zwei Bildsensoren durch den Mittelpunkt einer Strecke, die zwischen den optischen Achsen der Bildsensoren und den Bildsensoren verläuft. Dabei können die 3D-Koordinaten durch Anwendung einer hier bevorzugten Stereoanalyse von durch mindestens zwei Bildsensoren aufgenommenen 2D-Bildern ermittelt werden. Bei der Stereoanalyse werden dazu die Disparitäten eines erkannten Gesichtes in den Bilddaten ermittelt. Die Disparität ist dabei der Abstand der Koordinaten eines Bildpunktes in den Bilddaten eines Stereobildes, der durch Erfassung eines Punktes im Raum durch zumindest zwei Bildsensoren aus verschiedenen Richtungen in den aufgenommenen Bilddaten mit unterschiedlichen Koordinaten in den Bilddaten abgebildet ist, soweit dieser Punkt von beiden Bildsensoren erfasst wird. Durch Einmessen der Bildsensoren wird eine Funktion ermittelt, welche die Disparität der Bildpunkte im Stereobild auf den Abstand des Punktes im Raum vom Bilddaten gebenden Bildsensor und umgekehrt abbildet. Der Abstand von den Bildsensoren wird durch Anwendung der Funktion festgestellt und daraus kann die Z-Koordinate der 3D-Koordinaten berechnet werden. Die Ermittlung der Z-Koordinate kann dabei auch durch andere dem Stand der Technik bekannte Verfahren durchgeführt werden.
Des Weiteren ist bevorzugt, dass in einer Ausführungsform der Abstand des Gesichtes vom Bilddaten gebenden Bildsensor aus den 3D-Koordinaten ermittelt wird. Die Ermittlung des Abstandes eines Gesichtes vom Bildsensor kann auch durch andere Verfahren, wie beispielsweise eine Laserentfernungsmessung, durchgeführt werden.
Vorzugsweise erfolgt die Erkennung von Gesichtern in den Bilddaten im Schritt 115 synchron mit dem Empfang der Bilddaten, so dass in den Bilddaten jeweils nach Gesichtern gesucht wird, welche noch nicht erkannt oder während der Verfolgung verloren wurden. Dazu ist in der bevorzugten Ausführung vorgesehen, dass bereits erkannte Gesichter und deren Positionen gespeichert werden. Das bevorzugte Verfahren ist des Weiteren so ausgelegt, dass die Erkennung von neuen Gesichtern unabhängig von der Verfolgung von Augen im Schritt 130 durchgeführt wird. Werden in den Bilddaten Gesichter erkannt, wird in Schritt 120 überprüft, ob das Gesicht bereits verfolgt wird. Dabei kann die Überprüfung anhand von gespeicherten Merkmalen des Gesichtes, wie zum Beispiel dem Augenabstand oder den Gesichtsproportionen, oder vorzugsweise anhand der 3D-Koordinaten überprüft werden. Wird festgestellt, dass das erkannte Gesicht noch nicht verfolgt wird, dann sind auch die Augen oder das Augenpaar zu diesem Gesicht noch nicht erkannt. Das Auffinden von Augen im Gesicht erfolgt in der Ausführungsform in Schritt 125 durch das Festlegen zumindest eines ersten Suchbereiches auf dem erkannten Gesicht und das Auffinden von zumindest einem Auge im festgelegten Suchbereich. Für den Fall, dass das Gesicht bereits verfolgt wird, erfolgt die Verfolgung durch das Festlegen eines zweiten Suchbereiches, in dem zumindest ein Auge des Augenpaares des Gesichtes verfolgt wird. In einer Ausführungsform ist dabei bevorzugt, dass der erste Suchbereich größer als der zweite Suchbereich ist. In der bevorzugten Ausführung werden in den Schritten 125 und 130 zumindest ein Auge im jeweils ersten Suchbereich aufgefunden und anschließend im zweiten Suchbereich verfolgt. Die Zuordnung von aufgefundenen oder verfolgten Augen zu einem Augenpaar in Schritt 135 wird zweckmäßigerweise nach der Ermittlung der Koordinaten, welche vorzugsweise 3D-Koordinaten sind, durchgeführt. Die aufgefundenen oder verfolgten Augenpaare werden zur weiteren Verwendung, zum Beispiel in einer Wiederholung des Verfahrens oder für andere Anwendungen, die nicht Teil der hier beschriebenen Ausführungsform sind, bereitgestellt. Die Bereitstellung der 3D-Koordinaten der Augenpaare im Schritt 140 erfolgt beispielsweise über eine entsprechende Schnittstelle 720 zur Weiterverarbeitung durch einen Computer 725, wie dies nachfolgend mit Bezug auf 7 beschrieben wird.
Weitere bevorzugte Ausführungsformen des Verfahrens werden anhand der 2 und der 3 beschrieben. Das in 2 dargestellte Verfahren zeigt im Detail die Operationen zum Auffinden von Augen im Schritt 125 in 1. Das Verfahren startet, wenn festgestellt wurde, dass ein Gesicht nicht verfolgt wird und damit bisher auch keine Augen für dieses Gesicht aufgefunden wurden. Für das Auffinden von Augen werden die aktuellen Bilddaten und die 3D-Koordinaten des erkannten Gesichtes verwendet. Der Verfahrensschritt 210 legt im erkannten Gesicht zumindest einen ersten Suchbereich 310 fest, wobei die Größe des ersten Suchbereiches von den Eigenschaften und der Genauigkeit des gewählten Gesichtserkennungsverfahrens abhängig ist. In einer bevorzugten Ausführung weist der erste Suchbereich eine Größe von ca. 50 × 50 mm auf. Das Festlegen des ersten Suchbereiches 310 erfolgt mit Hilfe der ermittelten 3D-Koordinaten des Gesichts und der Gesichtsgeometrie. Aus diesen Informationen kann berechnet werden, in welchem Bereich die Augen für dieses Gesicht höchstwahrscheinlich zu finden sind, so dass anhand des berechneten Bereiches der oder die ersten Suchbereiche in den Bilddaten festgelegt werden. 3 zeigt festgelegte erste Suchbereiche 310 auf einem Bild 320 für jeweils ein Auge eines Gesichts, welches durch Ausnutzung des „Dark-Pupil-Effects" der Pupillen gekennzeichnet ist. Die weiteren Verfahrensschritte werden jeweils in dem ersten Suchbereich durchgeführt, was dazu führt, dass die zu betrachtenden Regionen des Gesichtes reduziert werden, was sich wiederum vorteilhaft auf den Berechnungsaufwand und damit die Effizienz des Verfahrens auswirkt. Für das erkannte Gesicht wird anhand der Entfernung des Gesichtes vom Bilddaten gebenden Bildsensor die Größe eines Augenbestandteiles in Schritt 215 berechnet. In einer Ausführungsform wird als Augenbestandteil die Pupille verwendet, da diese beim „Dark-Pupil-Effect" besonders kontrastreich gegenüber anderen Augenbestandteilen hervorgehoben wird. In einer weiteren Ausführungsform wird neben der Pupille die Iris als relevanter Augenbestandteil verwendet. Die Berechnung des Abstandes kann aus den 3D-Koordinaten des erkannten Gesichtes oder durch andere bekannte Verfahren erfolgen. Ebenso ist es vorteilhaft, wenn der Abstand an den Verfahrensschritt 125 zur weiteren Verwendung übergeben wird. Die Berechnung der erwarteten Größe der Pupille selbst erfolgt durch Anwendung entsprechender Algorithmen, auf die hier nicht näher eingegangen wird. Ein weiterer Schritt des Auffindens von Augen umfasst die Berechnung eines Schwellwertes für eine Segmentierung des ersten Suchbereiches im Schritt 220.
Eine Segmentierung ist hierbei ein Bildverarbeitungsverfahren, bei dem inhaltlich zusammenhängende Regionen durch eine Zusammenfassung von benachbarten Bildpunkten entsprechend einem bestimmten Homogenitätskriterium erzeugt werden. Als Homogenitätskriterium wird in der bevorzugten Ausführung der Grauwert verwendet. Der Grauwert ist in der Bildverarbeitung der Helligkeits- oder Intensitätswert eines einzelnen Bildpunktes. Es wird an dieser Stelle angemerkt, dass der Grauwert unabhängig von der Farbe der Bilddaten ist.
In einer bevorzugten Ausführung umfassen die Bilddaten Grauwerte in 256 Zwischenstufen von Weiß bis Schwarz. Die Berechnung eines Grauwertes als Schwellwert, der bei der nachfolgenden Verarbeitung verwendet wird, erfolgt in Abhängigkeit vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor. Da sich die Helligkeits- und Intensitätswerte in den Bilddaten abhängig vom Abstand vom Bildsensor verschieben, ist eine Berechnung des Schwellwertes unter Berücksichtung des Abstandes zweckmäßig. In einem weiteren Schritt 225 wird der erste Suchbereich vorverarbeitet, um die relevanten Bildbestandteile, wie zum Beispiel die Pupillen oder die Pupillen und die Iris der Augen, weiter aus den übrigen Bildbestandteilen hervorzuheben.
In der hier bevorzugten Ausführung ist diese Vorverarbeitung eine Histogramm-Egalisierung der Grauwerte im ersten Suchbereich. Bei einer Histogramm-Egalisierung wird die statistische Häufigkeit der Grauwerte oder der Farbwerte in den Bilddaten durch eine Egalisierungsfunktion transformiert, um eine bessere Verteilung der Grauwerte bzw. der Farbgebung im Sinne eines besseren Kontrastes sowie eine Normalisierung des Inhaltes der Bilddaten innerhalb des Suchbereiches zu erreichen. Damit können die Einflüsse unterschiedlicher Helligkeiten in den Bilddaten, die sich aus dem Abstand des Gesichtes vom Bilddaten gebenden Bildsensor und der damit verbundenen geringeren Wirkung der aktiven Beleuchtung oder aus zusätzlichen Beleuchtungseffekten, wie beispielsweise Sonnenlichteinfall, welcher einen hohen Anteil an infrarotem Licht aufweist, ergeben, verringert werden und somit ähnliche Kontrastwerte für die Weiterverarbeitung erzeugt werden.
Nachdem die Bilddaten im ersten Suchbereich derart vorverarbeitet wurden, wird eine Segmentierung in Schritt 230 durchgeführt. Als Segmentierung sind alle geeigneten Verfahren einsetzbar, die eine Zuordnung von Bildpunkten anhand ihrer Grauwerte ermöglichen. Gemäß einer Ausführungsform wird als bevorzugte Segmentierung eine Binarisierung der Bildpunkte eingesetzt. Bei der Binarisierung wird der im Schritt 220 berechnete Schwellwert verwendet. Die Bildpunkte im ersten Suchbereich werden dabei zu 1, wenn die Werte der Bildpunkte unterhalb des Schwellwertes liegen, und sie werden zu 0, wenn die Werte der Bildpunkte oberhalb des Schwellwertes liegen. Eine Binarisierung der Bildpunkte in umgekehrter Weise, bei der die Bildpunkte unterhalb des Schwellwertes zu 0 und die Bildpunkte oberhalb des Schwellwertes zu 1 werden, ist ebenso einsetzbar. Damit wird erreicht, dass im ersten Suchbereich nur noch relevante Bildpunkte oberhalb des Schwellwertes 1 und damit schwarz und alle anderen Bildpunkte 0 und damit weiß sind. In einem nächsten Verfahrensschritt 235 werden in den segmentierten Suchbereichen Verbundenen-Regionen berechnet. Dabei ist eine Verbundenen-Region ein Bereich, in dem benachbarte Bildpunkte auf Grund ihrer gleichen Eigenschaften, beispielsweise hinsichtlich ihres Grauwertes, als zusammengehörig ermittelt werden.
In einer bevorzugten Ausführung werden 8-Verbundenen-Regionen berechnet, welche im Einzelfall die Zusammengehörigkeit von Bildpunkten besser darstellen als beispielsweise bei der Berechnung von 4-Verbundenen-Regionen. Dabei werden alle 8 benachbarten Bildpunkte zu einem Bildpunkt betrachtet und es wird berechnet, ob diese benachbarten Bildpunkte denselben Grauwert aufweisen. Bei 4-Verbundenen-Regionen werden nur jeweils horizontal und vertikal benachbarte Bildpunkte betrachtet. Alle denselben Grauwert aufweisenden Bildpunkte werden derselben Verbundenen-Region zugeordnet. Gemäß einer Ausführungsform werden Bildpunkte, die innerhalb eines bestimmten Grauwertbereichs liegen, einer gemeinsamen Verbundenen-Region zugeordnet.
Für die berechneten Verbundenen-Regionen wird im nachfolgenden Schritt 240 eine Größenermittlung durchgeführt. Die ermittelte Größe für jede berechnete Verbundenen-Region wird mit der erwarteten Größe der Pupille bzw. des erwarteten Augenbereichs verglichen. Für den Fall, dass beim Vergleich der Größen in Schritt 245 festgestellt wird, dass die Größe einer Verbundenen-Region annähernd gleich der erwarteten Größe der Pupille ist, wird vermutet, dass die Verbundenen-Region ein Auge ist. In allen anderen Fällen ist die Verbundenen-Region kein Auge. Es versteht sich von selbst, dass somit in einem ersten Suchbereich auch mehrere Augen erkannt werden können, welche durch den Verfahrensschritt 135 des Zuordnens zu einem Augenpaar entsprechend weiter verarbeitet werden. Die Verfahrensschritte zum Auffinden von Augen nach dieser Ausführungsform enden mit den aufgefundenen Augen in Schritt 250. Für den Fall, dass im ersten Suchbereich kein Auge aufgefunden werden konnte, wird das Verfahren entweder mit einem vergrößerten ersten Suchbereich wiederholt oder ohne auffindbare Augen für das erkannte Gesicht beendet.
In einer weiteren bevorzugten Ausführungsform werden der Schwellwert, die Berechnungsvorschriften des Schwellwertes oder die Parameter der Berechnungsvorschriften des Schwellwertes durch Messungen der Erkennungsleistung an einer großen Menge von Testbildern und Testbildsequenzen ermittelt und optimiert. Dabei wird auch der Abstand des Gesichtes bzw. der Augen vom Bilddaten gebenden Bildsensor berücksichtigt, da mit zunehmendem Abstand vom Bilddaten gebenden Bildsensor beispielsweise die Leistung und der Effekt der aktiven Beleuchtung abnimmt. Eine zweckmäßige Berechnungsvorschrift für den Schwellwert ist: Schwellwert = MinHelligkeitsweit + Startwert + (MaximalAbstand – Abstand)/100
Wobei der MinHelligkeitswert der geringste Helligkeitswert eines Bildpunktes im zu segmentierenden Bereich, der Startwert ein durch Optimierung von ermittelten Werten aus den oben beschriebenen Messungen festgelegter Wert, der MaximalAbstand der maximale Betrachterabstand in mm vom Bilddaten gebenden Bildsensor und der Abstand der Abstand des Gesichtes oder der Augen vom Bilddaten gebenden Sensor in mm ist.
Weitere bevorzugte Ausführungsformen des Verfahrens werden nachfolgend anhand der 4 und der 5 beschrieben. Das in 4 dargestellte Verfahren zeigt im Detail die Operationen zum Verfolgen von Augen im Schritt 130 in 1. Beim Verfolgen von Augen werden gegenüber dem Auffinden von Augen die zweiten Suchbereiche für die Augen im Schritt 410 anhand der bekannten Positionen der Augen festgelegt. Es ist bevorzugt, dass der jeweils festgelegte zweite Suchbereich kleiner als der erste Suchbereich gewählt wird. Die Größe des zweiten Suchbereiches entspricht üblicherweise im Wesentlichen der Größe eines Auges, wobei die Größe des zweiten Suchbereiches in Abhängigkeit von der Wiederholungsrate der von den Bildsensoren aufgenommenen Bilddaten und der Bewegungsfreiheit bzw. Bewegungsgeschwindigkeit der Augen dynamisch vergrößert werden kann. In einer weiterhin bevorzugten Ausführungsform weist der zweite Suchbereich eine Größe von ca. 20 × 15 mm auf, bei der davon ausgegangen wird, dass das Auge durch den Suchbereich abgedeckt ist. Die Festlegung der zweiten Suchbereiche 510 auf dem Gesicht 320 wird dabei wie folgt vorgenommen. Bei Eintritt des Verfahrens gemäß 1 in den Verfahrensschritt 130 sind die 3D-Koordinaten der zu verfolgenden Augen aus den vorher durchlaufenen Schritten und insbesondere Schritt 140 zu früheren Bilddaten bekannt. Es wird beispielsweise anhand von mehreren früheren 3D-Koordinaten der Augen ermittelt, ob die aufgefundenen und verfolgten Augen eine Relativbewegung in eine bestimmte Richtung mit einer bestimmten Geschwindigkeit ausführen. Für den Fall, dass dieses festgestellt wird, kann eine Vorhersage der Position der Augen im aktuellen Bild berechnet werden. Aus dem Stand der Technik sind hierzu entsprechende Verfahren bekannt, auf die hier vollumfänglich Bezug genommen wird. Aufgrund der vorhergesagten Position des Auges wird dann der zweite Suchbereich entsprechend festgelegt. Für den anderen Fall, dass entweder bisher noch keine Relativbewegung festgestellt werden konnte oder die Augen im vorhergehenden Schritt erstmalig aufgefunden wurden, wird der zweite Suchbereich anhand der ermittelten Position des Auges im vorhergehenden Schritt 140 festgelegt.
Eine beispielhafte Festlegung von zweiten Suchbereichen 510 auf einem bereits erkannten Gesicht 320 ist in 5 dargestellt. Im Vergleich zum Suchbereich 310 aus 3 ist zu erkennen, dass der Suchbereich 510 deutlich kleiner ist, so dass der Rechenaufwand auf Grund der geringen Anzahl von Bildpunkten im zweiten Suchbereich wiederum reduziert ist.
Nachdem der zweite Suchbereich festgelegt wurde, wird die Größe eines Augenbestandteils in Abhängigkeit vom Abstand der Augen vom Bilddaten gebenden Bildsensor in Schritt 415 berechnet. Die Berechnung erfolgt dabei beispielsweise wie in Schritt 215. Nachfolgend wird im zweiten Suchbereich ein minimaler Grauwert in Schritt 420 ermittelt. Für die Ermittlung des minimalen Grauwerts werden wiederum bekannte Verfahren der Bildverarbeitung verwendet. Der ermittelte minimale Grauwert aus Schritt 420 wird in der nachfolgenden Iteration weiter verwendet. Die Iteration umfasst die Schritte Berechnen eines Grauwertes als aktuellen Schwellwert für eine Segmentierung (Schritt 425), Segmentieren des Suchbereiches (Schritt 430), Berechnen von Verbundenen-Regionen (Schritt 435), Ermitteln der Größen der Verbunden-Regionen (Schritt 440) und Vergleich der ermittelten Größen mit der erwarteten Größe (Schritt 445). Die Iteration wird nach Durchlaufen des Schrittes 445 im Schritt 450 abgebrochen, wenn mindestens zwei Augen aufgefunden wurden. In allen anderen Fällen wird ein neuer Iterationsschritt durchgeführt. In einer bevorzugten Ausführung wird unabhängig von der Anzahl der beim Vergleich aufgefundenen Augen die Anzahl der Iterationsschritte auf vier begrenzt, wobei die Iteration nach dem vierten Iterationsschritt mit den bis dahin aufgefundenen Augen abbricht. In jedem Iterationsschritt wird zuerst der Grauwert ermittelt, welcher als Schwellwert für die nachfolgende Segmentierung verwendet wird. Die Ermittlung des aktuellen Schwellwertes erfolgt dabei durch bekannte Verfahren unter Berücksichtigung des Abstandes der Augen vom Bilddaten gebenden Bildsensor und des minimalen Grauwert aus Schritt 425 sowie des aktuellen Iterationsschrittes. In jedem Iterationsschritt wird weiterhin der Schwellwert so angepasst, dass bei der nachfolgenden Segmentierung mit Hilfe des Schwellwertes mehr Regionen in den Bilddaten als möglicherweise Augen enthaltende Regionen klassifiziert werden. Das Verfolgen von Augen nach der hier beschriebenen Ausführungsform endet mit den als zu verfolgend erkannten Augen in Schritt 455.
Wie oben beschrieben sind verschiedene bekannte Segmentierungsverfahren einsetzbar. In einer bevorzugten Ausführung wird hier wiederum die Binarisierung als Bildverarbeitungsfunktion eingesetzt. Damit werden, wie oben beschrieben, die Bildpunkte mit einem Grauwert unterhalb des Schwellwertes zu 0 und die Bildpunkte mit einem Grauwert oberhalb des Schwellwertes zu 1, oder umgekehrt.
Nach der Binarisierung werden, wie oben bereits beschrieben, Regionen zu Verbundenen-Regionen berechnet. Die bevorzugte Verbundenen-Region ist dabei die oben beschriebene 8-Verbundenen-Region. Für jede dieser berechneten Verbundenen-Regionen wird dann die Größe der Verbundenen-Region ermittelt. Diese ermittelte Größe wird in einem Vergleich mit der Größe des erwarteten Augenbestandteils, wie zum Beispiel der hier bevorzugten Pupille, verglichen. Für den Fall, dass die erwartete Größe mit der ermittelten Größe annähernd übereinstimmt, wird vermutet, dass ein Auge aufgefunden wurde. Dieser Vergleich wird für jede berechnete Verbundenen-Region durchgeführt. Nachdem die Größen aller Verbundenen-Regionen mit der erwarteten Größe des Augenbestandteiles verglichen wurden, wird festgestellt, wie viele Augen durch den Iterationsschritt aufgefunden wurden. Für den Fall, dass mindestens zwei Augen aufgefunden wurden, wird das Verfolgen der Augen für die aktuellen Bilddaten beendet. Das Verfahren gemäß 1 wird dann mit den erkannten Augen in Schritt 135 fortgesetzt.
Zweckmäßigerweise wird die Iteration weiterhin auch dann verlassen, wenn beispielsweise vier Iterationsschritte durchlaufen wurden. In Abhängigkeit von der zur Verfügung stehenden Rechenleistung kann die Iteration jedoch auch nach weniger oder deutlich mehr Iterationsschritten abgebrochen werden, wenn bis dahin nicht zumindest zwei Augen erkannt wurden.
Die Berechnung des Schwellwertes für die Segmentierung in einem Iterationsschritt basiert auf der in Schritt 125 verwendeten Berechnungsvorschrift und den dort eingeführten Parametern und erfolgt zweckmäßigerweise wie folgt: Schwellwert = MinHelligkeitswert + Startwert + Iterationswert + (MaximalAbstand – Abstand)/100
Wobei der Iterationswert einen Wert von 0 bis X mit einer Schrittweite von 1 ist und die Anzahl an bereits durchlaufenen Iterationsschritten repräsentiert. Die maximale Anzahl von Iterationsschritten X kann durch Optimierung der durch die oben beschriebenen Messungen ermittelten Werte festgelegt werden. In der beschriebenen Ausführungsform ist die maximale Anzahl der Iterationen vier.
Beim Verfolgen von Augen im zweiten Suchbereich ist es daher möglich, dass auch nach der festgelegten Maximalzahl von Iterationsschritten keine Augen aufgefunden wurden. In diesem Fall werden beispielsweise die Schritte zur Verfolgung von Augen in einem größeren zweiten Suchbereiches oder die Schritte zum Auffinden von Augen erneut ausgeführt.
Gemäß einem Ausführungsbeispiel wird für die Festlegung der zweiten Suchbereiche vermutet, dass in den Fall, in dem sich die 3D-Koordinaten des Augenpaares vom Auffinden in einem Bild zum Verfolgen in einem nächsten Bild nicht oder nur minimal verändert haben, diese auch in dem auf das nächste Bild nachfolgenden Bild annähernd gleich sein werden. Für einen anderen Fall, in dem sich die 3D-Koordinaten des verfolgten Augenpaares über mehrere Bilder von den ursprünglichen 3D-Koordinaten beim Auffinden weg bewegt haben, können die 3D-Koordinaten und damit auch die zweiten Suchbereiche des nachfolgenden Bildes mit Hilfe eines durch die beschriebene Bewegung definierten Bewegungsvektors und der Bewegungsgeschwindigkeit durch bekannte Verfahren, wie zum Beispiel einer Kalman-Filterung, grundsätzlich vorhergesagt werden.
Weitere bevorzugte Ausführungsformen des Verfahrens werden nun anhand von 6 beschrieben. Das in 6 dargestellte Verfahren zeigt im Detail die Operationen zum Zuordnen von Augen zu einem Augenpaar im Schritt 135 in 1. Das Zuordnen von Augen zu Augenpaaren erfolgt mit den beim Auffinden oder Verfolgen von Augen erkannten Augen. Zu diesen erkannten Augen werden die 3D-Koordinaten im Schritt 610 wie oben beschrieben ermittelt. Das Zuordnen der Augen zu Augenpaaren selbst ist in einer bevorzugten Ausführung eine Klassifikation. Klassifikationsverfahren sind Methoden und Kriterien zur Einteilung von Objekten in Klassen. Die aus dem Stand der Technik bekannten Klassifikatoren sind, falls sie für eine Zuordnung von Objekten in Bilddaten geeignet sind, einsetzbar. In einer bevorzugten Ausführung ist der Klassifikator eine Support Vector Machine. Eine Support Vector Machine unterteilt eine Menge von Objekten so in Klassen, dass um die Klassengrenzen herum ein möglichst breiter Bereich frei von Objekten bleibt. Als Grundlage für diese Unterteilung wird die Support Vector Machine mit Trainingsobjekten der zu unterteilenden Mengen trainiert. In einer bevorzugten Ausführung wird hier eine erste Menge von Bildern, die verschiedene Augen zeigen, und eine zweite Menge von Bildern, die verschiedene Nicht-Augen zeigen, in Schritt 615 gebildet. Diese Mengen werden üblicherweise vor Ausführung des Verfahrens gebildet, können aber auch erst unmittelbar vor Ausführung des Zuordnens von Augen zu Augenpaaren gebildet werden. Die Support Vector Machine wird mit diesen beiden Mengen in Schritt 620 so trainiert, dass eine Klassifikation von Augen in den Bilddaten ermöglicht wird. Die aufgefundenen oder verfolgten Augen werden nachfolgend durch einen Mustervergleich der Support Vector Machine 625 verglichen und bei entsprechender Übereinstimmung in Schritt 630 der Klasse Auge oder Nicht-Auge zugeführt. Die Ergebnisse der Klassifikation können wiederum als Trainingsobjekte der Support Vector Machine zugeführt werden. Die Support Vector Machine ordnet die Augen sodann zu Augenpaaren, welche dann der Klasse der Augen zugeordnet wurden. Das Zuordnen von Augenpaaren nach der hier beschriebenen Ausführungsform endet mit zugeordneten Augenpaaren in Schritt 635.
Mit Bezug auf 7 wird weiterhin eine bevorzugte Ausführung einer Vorrichtung zum Auffinden und anschließendem Verfolgen der 3D-Koordinaten eines Augenpaares in Echtzeit beschrieben. Dargestellt sind zwei parallel angeordnete Bildsensoren 710, die beispielsweise auf einem gemeinsamen Träger befestigt sind, Mittel zur aktiven Beleuchtung 715 jeweils für jeden Bildsensor und Mittel zum Übertragen der Bilddaten 720 für jeden Bildsensor an einen zentralen Steuerungscomputer 725, welcher das erfindungsgemäße Verfahren ausführt. Die Bildsensoren 710 sind im Zusammenspiel mit den Beleuchtungsmitteln 715 in einer bevorzugten Ausführungsform dazu ausgelegt, Bilddaten aufzunehmen, die den „Dark-Pupil-Effect” wiedergeben. Damit gewährleistet werden kann, dass die eingesetzten Bildsensoren hinreichend scharfe Bilddaten liefern, sind die Bildsensoren für spezifische Erfassungsbereiche mit nicht selbst fokussierenden Optiken ausgestattet. Zweckmäßigerweise sind beispielsweise Bildsensoren für einen Erfassungsbereich von 0,5 bis 3,5 m oder weiter oder für jeweils einen kleineren Bereich von 0,5 bis 1,5 m und/oder von 1,8 bis 3,0 m einsetzbar. Die aktiven Beleuchtungsmittel 715, die gemäß einer Ausführungsform auch nur aus einer einzelnen Lichtquelle bestehen können, sind vorzugsweise dazu ausgelegt, gepulstes infrarotes Licht mit einer Wellenlänge von ca. 850 nm auszusenden. Die Anordnung der aktiven Beleuchtung zu den Bildsensoren wird durch die räumliche Lage der aufzufindenden und zu verfolgenden Subjekte zu den Bildsensoren bestimmt. Der Steuerungscomputer 725 steuert die Aufnahme von Bilddaten durch die Bildsensoren über die Mittel zum Übertragen der Bilddaten 720 für jeden Bildsensor, wobei darüber ebenso die aktive Beleuchtung an- und ausgeschaltet wird. Gemäß einer Ausführungsform sind die Mittel zum Übertragen der Bilddaten 720 für jeden Bildsensor durch eine einzige serielle Schnittstelle implementiert.
In einer weiteren bevorzugten Ausführung wird die synchrone Steuerung der Bildsensoren und der aktiven Beleuchtung beispielsweise durch einen Taktgeber realisiert. Die von den Bildsensoren aufgenommenen Bilder werden über die Übertragungsmittel 720 an den zentralen Steuerungscomputer 725 übermittelt. Aktuell verfügbare Hardwarekomponenten für den Steuerungscomputer 725 ermöglichen die Ausführung des erfindungsgemäßen Verfahrens zur Erkennung und Verfolgung von bis zu 4 Betrachtern bei einer Erkennungs- und Verfolgungsfrequenz von 25 und mehr Bildern pro Sekunde. Die Hardwarekomponenten sind dabei so kompakt, dass sie beispielsweise in das Gehäuse eines Monitors integriert werden können. Die vom Steuerungscomputer 725 aufgefundenen und verfolgten Augen können über eine weitere Schnittstelle, die nicht dargestellt ist, zur weiteren Verwendung wiederum übertragen werden. In einer bevorzugten Ausführung sind die Mittel zur Übertragung der Bilddaten 720 und die weitere Schnittstelle jeweils als serielle Schnittstellen ausgeführt. Die Vorrichtung ist in einer bevorzugten Ausführung dazu ausgelegt, das Verfahren in Echtzeit auszuführen, d. h. dass Augen in jedem den jeweils empfangenen Bilddaten entsprechenden Bild aufgefunden und verfolgt werden können.
Das erfindungsgemäße Verfahren wird weiterhin bevorzugt als ausführbares Computerprogramm implementiert, das einen Computer, wie den Steuerungscomputer 725, steuert. Eine bevorzugte Ausführung als Computerprogramm soll nachfolgend mit Bezug auf 8 beschrieben werden. Die in 8 dargestellte Ausführungsform zeigt einen nach objektorientiertem Paradigma erfolgten Entwurf des Ablaufs des Computerprogramms, wobei der Entwurf den Fachmann in die Lage versetzt, das Computerprogramm objektorientiert mit einer geeigneten Entwicklungsumgebung zu implementieren.
Die nachfolgend eingeführten Objekte und Instanzen implementieren teilweise mehrere der vorbeschriebenen Verfahrensschritte oder fassen diese in den Objekten und Instanzen zusammen. Es wurden daher für diese Objekte und Instanzen und die darin ablaufenden Verfahrensschritte Bezeichnungen gewählt, die von denen für die vorbeschriebenen Verfahrensschritte gebrauchten abweichen, ohne dass hierdurch zum Ausdruck gebracht werden soll, dass es sich dabei insgesamt um unterschiedliche Verfahren handelt. Vielmehr ist die nachfolgend beschriebene Ausführungsform lediglich als objektorientierte Ausprägung des erfindungsgemäßen Verfahrens zu verstehen.
Eine steuernde Hauptinstanz 810 dient dabei als Hauptschleife und somit als steuernde Instanz, um den Ablauf der nachfolgend erläuterten Verfahrensschritte beziehungsweise Verfahrensgruppen zu steuern. In der Hauptinstanz 810 sind die nachfolgenden Verfahrensschritte repräsentiert und implementiert:

• Bilddaten werden akquiriert;
• eine sogenannte Tracker-Instanz 820 wird aufgerufen;
• Berechnung der 3D-Koordinaten der Augen durch die Tracker-Instanz 820 für alle gültig erkannte Augenpositionen;
• Filterung durch Einschränkung der 3D-Koordinaten in zulässige Bereichspositionen, wobei die Filterung gemäß weiterer Ausführungsformen eine Rauschfilterung und Vorausberechnung beziehungsweise Vorhersage einer 3D-Position anhand der 3D-Bewegungsgeschwindigkeit des Gesichts umfasst, um die System-Verzögerungszeit auszugleichen. Zweckmäßigerweise wird dabei die 3D-Position für 60 ms vorhergesagt, da dies einer typischen Systemverzögerungszeit entspricht. Unter der Systemverzögerungszeit wird hier die Zeit zwischen dem Empfangen der Bilddaten bis zur Bereitstellung der 3D-Koordinaten der Augenpaare verstanden.
• Übertragung der resultierenden 3D-Koordinaten über eine Ausgabe-Schnittstelle 870, um die Resultate entsprechend weiter verarbeiten zu können.

Die Eingangsdaten umfassen dabei die Bilddaten, welche als Sequenz digitaler Videosignale von einem oder mehreren Bildsensoren akquiriert werden.
Die Ergebnisdaten umfassen die 3D-Koordinaten aller Augenpaare.
Zur Koordination und Verwaltung des Zusammenspiels zwischen Gesichtserkennung 115, Augenerkennung 125 und Augennachverfolgung 130 werden mehrere Kontext-Instanzen 840-1, ..., 840-n als Verwaltungsstruktur implementiert. Dabei ist jeder Kontext-Instanz 840 eine Gesichts-Detektor-Instanz 850 für das Auffinden eines Gesichts 115 sowie eine Augendetektor-Instanz 860 zum Auffinden von Augen 125 im zugehörigen, vom Gesichts-Detektor 850 ermittelten Augen-Suchbereich, zugeordnet. Die vom Augen-Detektor 860 gefundenen Augen gehören also zu dem vom Gesichts-Detektor 850 gefundenen Gesicht. Ein Kontext 840 ist als frei definiert, wenn er keinem Subjekt zugeordnet ist und somit zum Nachverfolgen eines neuen Subjekts zur Verfügung steht.
Die wichtigsten Verfahrenschritte einer Kontext-Instanz 840 umfassen:

• Verwaltung je einer Instanz des Gesichts-Detektors 850 und des Augen-Detektors 860 pro Subjekt;
• Referenz dieser beiden Instanzen 850, 860 jeweils auf ein Subjekt für die Dauer des Aufenthalts im zugelassenen Erkennungs- und Verfolgungsbereich;
• Gesteuerte Zuordnung und Verwaltung der Kontexte 840, wobei Kontexte 840 frei sein können, falls sich weniger Subjekte im Erkennungs- und Verfolgungsbereich befinden, als Kontexte 840 vorhanden sind, und wobei keine weiteren Subjekte gefunden und verfolgt werden können, falls alle Kontexte 840 belegt sind.

Im Weiteren wird das Zusammenspiel der verschiedenen Gesichts- und Augendetektor-Instanzen 850, 860 innerhalb der Kontexte 840 koordiniert und durch die Tracker-Instanz 820 verwaltet. Die wichtigsten Schritte der Tracker-Instanz 820 umfassen:

• Initialisierung der beiden Detektor-Objekte Gesichts- und Augendetektor 850, 860;
• Verwaltung der Kontext-Instanzen 840-1, ..., 840-n;
• Empfang der Gesichts-Koordinaten von einem Gesichts-Detektor 850 und Übergabe an eine Gesichtsmanagement-Instanz 830;
• Zuordnung neu gefundener Gesichter auf freie Kontexte 840;
• Aufruf der Algorithmen-Funktionen für Gesichts- und Augen-Detektor 850, 860 jedes belegten Kontextes 840;
• Berechnung der 3D-Koordinaten aller Augenpaare; die Eingangsdaten umfassen die Bilddaten; und die Ergebnisdaten umfassen 3D-Koordinaten aller Augenpaare.

Spezielle Schritte der Tracker-Instanz 820 umfassen:

• Prüfung der Eingabe-Schnittstelle 880, ob neue Gesichtskoordinaten vorliegen und Auslesen dieser Daten und Einfügen in die Liste der aktuellen Gesichtspositionen;
• Aufruf der Gesichtsmanagement-Instanz 830, falls mindestens ein Kontext 840 verfügbar ist;
• Prüfung der Gesichts-Kandidaten der Gesichtsmanagement-Instanz 830, ob Gesichter bereits in einem Kontext 840 verfolgt werden und Elimination der als redundant erkannten Gesichts-Kandidaten;
• Zuordnung der übrigen, als neu erkannten Gesichter auf die Gesichts-Detektoren 850 der freien Kontexte 840;
• Iteration über alle Kontexte 840-1, ..., 840-n mit den Schritten: – Aufruf des Gesichts-Detektors 850; – Aufruf des Augen-Detektors 860, wenn der Gesichtsdetektor 850 ein Gesicht verfolgt, andernfalls wird der aktuelle Kontext 840 frei markiert; – Befindet sich der Augendetektor 860 im Suchmodus und wurden Augenkandidaten ermittelt, so erfolgt
• Auswahl der besten Augen-Kandidaten durch den Gesichts-Detektor 850;
• Umschalten des Augen-Detektors 860 in den Verfolgungsmodus; – nächster belegter Kontext 840 bis alle Kontexte 840 bearbeitet wurden.

Vom Gesichts-Detektor 850 empfangene Gesichtskoordinaten werden von einer Gesichtsmanagement-Instanz 830 ausgewertet, welche aus den Koordinaten eine Kandidatenliste mit als gültig erkannten Gesichtern für das Nachverfolgen ermittelt.
Die Schritte dieser Gesichtsmanagement-Instanz 830 umfassen:

• Verwaltung der gefundenen Gesichter des Gesichts-Detektors 850;
• Erstellung einer Kandidatenliste mit gültig erkannten Gesichtern anhand der gefundenen Gesichter des Gesichts-Detektors 850;
• Berechnung des Abstandes der Gesichter vom Bilddaten gebenden Bildsensor anhand von Disparitäten im Stereo-Bild.

Die Eingangsdaten umfassen Bilddaten sowie Suchbereich für die Gesichtssuche, und die Ergebnisdaten umfassen eine Liste mit gefundenen Gesichtern und deren Koordinaten.
Als spezielle Funktionen umfasst die Gesichtsmanagement-Instanz 830 die Schritte:

• Wenn sich die Liste der aktuellen Gesichtspositionen geändert hat: – Analyse der Liste; – Berechnung des Abstandes gültiger Gesichter vom Bilddaten gebenden Bildsensor mittels Stereo-Analyse und Übernahme der Gesichter, die sich innerhalb des Erkennungs- und Verfolgungsbereichs befinden in die Gesichts-Kandidatenliste.

Ein zu verfolgendes Gesicht wird von einer zugehörigen Gesichts-Detektor-Instanz 850 verwaltet. Einem Gesichts-Detektor 850 ist dabei jeweils ein Gesicht aus der Liste der Gesichter der Gesichtsmanagement-Instanz 830 zugewiesen. Dabei wird das Gesicht solange nachverfolgt, bis es aus dem Erkennungs- und Verfolgungsbereich austritt. Die Schritte der Gesichts-Detektor-Instanz 850 umfassen:

• Verwaltung der Position eines gefundenen Gesichts;
• Berechnung des Suchbereichs für den Augen-Detektor 860;
• Berechnung des Abstandes des Gesichtes vom Bilddaten gebenden Bildsensor anhand der Disparitäten im Stereo-Bild;
• Entscheidung für das beste Augenpaar aus der Kandidatenliste für mögliche Augenpaare des zugehörigen Augen-Detektors 860; die Eingangsdaten umfassen:
• Bilddaten;
• Informationen über ein gefundenes Gesicht;
• Suchbereich für das Gesichts-Tracking 850;
• Liste mit Augenpaarkandidaten; und die Ergebnisdaten umfassen:
• Liste mit gefundenen Gesichtern und deren Koordinaten;
• Suchbereich für den Augen-Detektor 860;
• Gewähltes Augenpaar.

Als spezielle Funktionen umfasst diese Gesichts-Detektor-Instanz 850 die Schritte:

• Wenn sich die Liste der aktuellen Gesichtspositionen geändert hat: – Aufdatierung/Aktualisierung der Gesichtsposition; – Zurücksetzen des Gefunden-Verloren-Referenzzählers; wobei dieser Referenzzähler eine Maßzahl dafür ist, in wie vielen nachfolgenden Bildern ein einmal aufgefundenes Gesicht nicht mehr aufgefunden wurde;
• Anderenfalls erfolgt bei gleichbleibender Liste: – Wenn der Augen-Detektor Augen verfolgt: – Berechnung der Gesichtsposition anhand der Augenposition; – Berechnung der Entfernung des Gesichts/der Augen; – Anderenfalls: – Das Gesicht wurde verloren und der Gefunden-Verloren-Referenzzähler wird inkrementiert. Dabei gilt das Gesicht aber immer noch als gefunden; – Die bisherige Gesichtsposition bleibt erhalten, solange der Gefunden-Verloren-Referenzzähler einen bestimmten, festgelegten Wert nicht übersteigt, ansonsten gilt das Gesicht als nicht mehr vorhanden.

Die Erkennung und Nachverfolgung der Augen erfolgt von einer Augen-Detektor-Instanz 860, welche entweder in einem Suchmodus in vorgegebenen Suchbereichen Augen detektiert oder in einem Verfolgungsmodus bereits gefundene Augen nachverfolgt. Dabei werden mögliche Augenpaare ermittelt und anhand von Bewertungskriterien Kandidatenlisten erstellt.
Die Schritte der Augen-Detektor-Instanz 860 umfassen:

• Verwaltung der Position eines gefundenen Augenpaars;
• Initiale Suche der Augen;
• Berechnung der Suchbereiche für die Nachverfolgung;
• Nachverfolgung Augenposition;
• Ermittlung der Konfidenz gefundener Augenkandidaten und Zusammenstellung potentieller Kandidaten; die Eingangsdaten umfassen:
• Bilddaten;
• Suchbereich für Augensuche und Nachverfolgung;
• Informationen über das gefundene Gesicht; und die Ergebnisdaten umfassen
• Augenpaar und deren Koordinaten.

Spezielle Funktionen dieser Augen-Detektor-Instanz 860 umfassen die Schritte:

• Befindet sich der Augen-Detektor 860 im Suchmodus: – Ermittlung des Augen-Suchbereichs durch den Gesichts-Detektor 850; – Anwendung von Algorithmen zur Detektion der Augen innerhalb des Augen-Suchbereichs;
• Anderenfalls, wenn sich der Augen-Detektor 860 im Verfolgungsmodus befindet: – Berechnung und Vorhersage beziehungsweise Extrapolation der neuen Positionen des Suchbereichs und dessen Größe anhand der Geschwindigkeit des Auges anhand vergangener Augen-Positionen sowie des Abstands des Betrachters zum Bilddaten gebenden Bildsensor; – Anwendung von Algorithmen zur Nachverfolgung der Augen innerhalb des Suchbereichs;
• Wurden Kandidaten gefunden, so erfolgt: – Durchführung verschiedener Tests, um potentielle Kandidaten für Augenpaare zu ermitteln. Test und Kriterien umfassen:
• Relative Lage der Augen zueinander und zur Gesichtsposition;
• Augenabstand und Neigung;
• Konfidenz anhand einer Klassifikation des Helligkeitsmusters im Bereich der gefundenen Position sowie umliegenden Positionen, wobei umliegende Positionen mit besserer Konfidenz später zur Erhöhung der Positionsgenauigkeit verwendet werden; – Kandidatenliste wird anhand der resultierenden Bewertungskriterien erstellt;
• Befindet sich der Augen-Detektor 860 im Verfolgungs-Modus, so erfolgt: – Wenn Kandidaten ermittelt wurden:
• Auswahl des Kandidatenpaares am nächsten zu den vorhergesagten Augen-Positionen;
• Aufdatierung der aktuellen Augen-Positionen als neues Resultat; – Anderenfalls, falls keine bzw. keine geeigneten Kandidaten gefunden wurden:
• Umschalten des Augen-Detektors 860 in den Suchmodus und Wiederholung der Suche.

Eine Implementierung der vorbeschriebenen Ausführungsformen der Erfindung erfolgt, wie teilweise bereits beschrieben, in geeigneter Hardware- und/oder Software, wie beispielsweise einer digitalen Signalverarbeitungsvorrichtung (DSP) und/oder einem programmierbaren integrierten digitalen Schaltkreis (FPGA) sowie entsprechender Peripherie und Steuerungsprogrammen, die zweckmäßigerweise auf einem Steuerungscomputer, wie beispielsweise einem geeigneten Personalcomputer, ablaufen.
Das beanspruchte Computerprogramm ist gemäß einer Ausführungsform als Softwarekomponente, beispielsweise als auf einem ROM gespeicherter Programmcode, oder als Hardwarekomponente, beispielsweise als logische Schaltung in einem ASIC oder FPGA, gespeichert bzw. implementiert. Ist das Computerprogramm als Softwarekomponente beispielsweise im Speicher des Steuerungscomputers gespeichert, wird es im Betrieb vom Steuerungscomputer ausgeführt, der gemäß einer Ausführungsform beispielsweise einen schnellen digitalen Signalverarbeitungsprozessor (DSP) zur Ausführung der Softwarekomponente enthält.
Der Datenträger ist gemäß einer Ausführungsform ein maschinenlesbarer Datenträger, wie beispielsweise eine CD-ROM oder ein ROM-Speicher, auf dem das Computerprogramm gespeichert ist.

Claims

Verfahren zum Auffinden und anschließendem Verfolgen der 3D-Koordinaten eines Augenpaares in zumindest einem Gesicht, aufweisend die Schritte: a) Empfangen von Bilddaten, enthaltend eine Sequenz zumindest eines digitalen Videosignals von zumindest einem Bildsensor; b) Auffinden von Augen oder Verfolgen von bereits aufgefundenen Augen in den Bilddaten; c) Ermitteln der 3D-Koordinaten der aufgefundenen oder verfolgten Augen; d) Zuordnen der aufgefundenen oder verfolgten Augen zu einem Augenpaar; und e) Bereitstellen der 3D-Koordinaten des Augenpaares; wobei das Auffinden von Augen in den Bilddaten die Schritte umfasst: f) Erkennen von einem oder mehreren Gesichtern in den Bilddaten; g) Ermitteln der 3D-Koordinaten zumindest eines erkannten Gesichtes; h) Festlegen eines ersten Suchbereiches auf dem erkannten Gesicht; und i) Auffinden zumindest eines Auges im ersten Suchbereich; wobei das Verfolgen von bereits aufgefundenen Augen in den Bilddaten die Schritte umfasst: j) Festlegen eines zweiten Suchbereiches auf dem erkannten Gesicht; und k) Verfolgen der Augen des Augenpaares im zweiten Suchbereich; dadurch gekennzeichnet, dass das Auffinden zumindest eines Auges im ersten Suchbereich die Schritte umfasst: l) Berechnen einer erwarteten Größe eines Augenbestandteiles abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor; m) Berechnen eines Grauwertes als Schwellwert für eine Segmentierung im ersten Suchbereich abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor; n) Vorverarbeiten des ersten Suchbereiches zur Erhöhung des Kontrasts; o) Segmentieren des ersten Suchbereiches nach der Vorverarbeitung; p) Berechnen ein oder mehrerer Verbundenen-Regionen im segmentierten ersten Suchbereich, wobei die Verbundenen-Region eine Zusammenfassung von benachbarten Bildpunkten mit zumindest annähernd gleichem Grauwert ist; q) Ermitteln einer Größe einer jeden berechneten Verbundenen-Region; und r) Vergleichen der erwarteten Größe des Augenbestandteils mit der ermittelten Größe der Verbundenen-Region, wobei die Verbundenen-Region ein aufgefundenes Auge ist, wenn die ermittelte Größe der Verbundenen-Region mit der erwarteten Größe des Augenbestandteils zumindest annähernd übereinstimmt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Verfolgen der Augen des Augenpaares im zweiten Suchbereich die Schritte umfasst: s) Berechnen einer erwarteten Größe eines Augenbestandteiles abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor; t) Ermitteln eines minimalen Grauwertes im zweiten Suchbereich; u) Iterieren über einen Grauwert als Schwellwert im zweiten Suchbereich, wobei die Iteration abbricht, wenn zumindest zwei Augen erkannt wurden, umfassend die Schritte: v) Berechnen des Grauwertes als Schwellwert für eine Segmentierung im zweiten Suchbereich abhängig vom Abstand des erkannten Gesichtes vom Bilddaten gebenden Bildsensor, vom aktuellen Iterationsschritt und vom minimalen Grauwert; w) Segmentieren des zweiten Suchbereiches; x) Berechnen ein oder mehrerer Verbundenen-Regionen im segmentierten zweiten Suchbereich, wobei die Verbundenen-Region eine Zusammenfassung von benachbarten Bildpunkten mit zumindest annähernd gleichem Grauwert ist; y) Ermitteln einer Größe einer jeden berechneten Verbundenen-Region; z) Vergleichen der erwarteten Größe des Augenbestandteils mit der ermittelten Größe der Verbundenen-Region, wobei die Verbundenen-Region ein verfolgtes Auge ist, wenn die ermittelte Größe der Verbundenen-Region mit der erwarteten Größe des Augenbestandteils zumindest annähernd übereinstimmt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Segmentieren eine Binarisierung jedes Pixels ist, wobei die Pixel unterhalb des Schwellwertes zu 1 und die Pixel oberhalb des Schwellwertes zu 0 oder umgekehrt die Pixel unterhalb des Schwellwertes zu 0 und die Pixel oberhalb des Schwellwertes zu 1 werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorverarbeitung in Schritt n) eine Grauwert-Histogramm-Egalisierung ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verbundenen-Region eine 8-Verbundenen-Region ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Augenbestandteil die Pupille oder die Pupille und die Iris umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Zuordnen der aufgefundenen oder verfolgten Augen zu einem Augenpaar eine Klassifikation umfasst.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Klassifikation durch eine Support Vector Machine erfolgt.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Support Vector Machine mit ein oder mehreren Bildern von Augen und/oder Nicht-Augen trainiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Erkennen von einem oder mehreren Gesichtern in den Bilddaten einen Vergleich der 3D-Koordinaten eines erkannten Gesichtes mit den 3D-Koordinaten eines in früheren Schritten erkannten Gesichtes umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Ermitteln der 3D-Koordinaten eines Gesichtes eine Stereoanalyse der Bilddaten umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Abstand des erkannten Gesichtes von dem Bilddaten gebenden Bildsensor eine Berechnung des Abstandes des Gesichtes aus den 3D-Koordinaten des Gesichtes umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Gesicht bei Aufnahme der Bilddaten durch infrarotes Licht aktiv beleuchtet wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren ein Augenpaar in einem Abstand von ca. 0,5 bis 3,5 m von den Bildsensoren auffindet und verfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Größe des ersten Suchbereiches größer als die Größe des zweiten Suchbereiches ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der erste Suchbereich eine Größe von ca. 50 × 50 mm aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der zweite Suchbereich eine Größe von ca. 20 × 15 mm aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren in Echtzeit abläuft.
Computerprogramm, dass, wenn es auf einem Computer abläuft, diesen steuert, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
Datenträger, auf welchem ein Computerprogramm nach Anspruch 19 abgespeichert ist.
Vorrichtung zum Auffinden und anschließendem Verfolgen der 3D-Koordinaten eines Augenpaares in zumindest einem Gesicht, die dazu ausgelegt ist, ein Verfahren nach einem der Ansprüche 1 bis 18 auszuführen.