DE10046859A1

DE10046859A1 - System zur Blickrichtungsdetektion aus Bilddaten

Info

Publication number: DE10046859A1
Application number: DE10046859A
Authority: DE
Inventors: Matthias Franz; Martin Fritzsche; Matthias Oberlaender; Tilo Schwarz; Bernd Woltermann
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2000-09-20
Filing date: 2000-09-20
Publication date: 2002-03-28
Anticipated expiration: 2020-09-21
Also published as: DE10046859B4; WO2002025576A1; AU2001295572A1

Abstract

Die Augendetektion spielt bei einem System zur Blickrichtungserkennung eine große Rolle. In den Augen ist die meiste Information über die Blickrichtung enthalten. Allein aus der Stellung der Augen ist es möglich, eine ungefähre Angabe über die Blickrichtung zu machen. Allerdings darf der Kopf dabei nicht bewegt werden. Um die Blickrichtung auch bei erlaubter Kopfbewegung zu detektieren, müssen weitere Gesichtsmerkmale hinzugezogen werden. Dazu gehören die Nase, der Mund und eventell sogar die Augenbrauen. Damit wird möglich, auch die Kopfstellung der Person zu ermitteln. DOLLAR A In diesem Umfeld wird ein neuartiges System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten, bestehend aus einer Vorrichtung zur Detektion der Augen und einer nachgeschalteten Einheit zur Bestimmung der Blickrichtung der beobachteten Person, beschrieben. Dabei zeichnet sich das System durch eine erfinderische Vorrichtung zur Augendetektion aus, welche eine Einheit zur Radienanpassung enthält, an welche sich eine erfinderische Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt. Des weiteren wird eine neuartige Vorrichtung zur Bestimmung der Blickrichtung beschrieben, welche Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist.

Description

Die Erfindung betrifft ein System zur Blickrichtungserkennung einer beobachteten Person aus Bilddaten nach dem Oberbegriff von Anspruch 1, sowie für dieses System geeignete Vorrichtungen und Verfahren zum Betrieb dieser Vorrichtungen nach den Oberbegriffen der Ansprüche 2, 21 und 24, sowie 3, 22 und 25.

Die Augendetektion spielt bei einem System zur Blickrichtungserkennung eine große Rolle. In den Augen ist die meiste Information über die Blickrichtung enthalten. Allein aus der Stellung der Augen ist es möglich, eine ungefähre Angabe über die Blickrichtung zu machen. Allerdings darf der Kopf dabei nicht bewegt werden. Um die Blickrichtung auch bei erlaubter Kopfbewegung zu detektieren, müssen weitere Gesichtsmerkmale hinzugezogen werden. Dazu gehören die Nase, der Mund und eventuell sogar die Augenbrauen. Damit wird möglich auch die Kopfstellung der Person zu ermitteln.

Ein Verfahren, um die Augen detektieren zu können, basiert auf der sogenannten Dif ferenzenmethode mit zwei Lichtquellen (Morimoto [20], Morimoto et al. [17], Ebiswana[8]). Bei dieser Methode wird die Person mit zwei Lichtquellen, meist LEDs (Light Emitting Diodes), beleuchtet. Eine Lichtquelle ist dabei in der Achse der Pupille und Kamera positioniert, so da das Licht direkt von der Netzhaut des Auges zurückgeworfen wird. Die zweite Lichtquelle ist seitlich angeordnet, so da keine Reflexionen der Netzhaut die Kamera erreichen. Es werden nun zwei Bilder mit je einer aktiven Lichtquelle aufgenommen. Diese beiden Bilder sind bis auf die Reflexion der ersten Lichtquelle auf der Netzhaut identisch. Durch die Bildung eines Differenzbildes bleibt nur die Reflexion auf dem Ergebnisbild übrig. Es ist nun einfach diese Reflexion aus dem Ergebnisbild mit Hilfe von Schwellwertverfahren zu extrahieren und somit die Position der Augen zu bestimmen. Dieses Verfahren kann allerdings nicht bei Bewegungen des Kopfes angewendet werden. Da das Differenzbild aus zwei im zeitlichen Abstand aufgenommenen Bildern gebildet wird, kommen der Reflex der Pupille sowie die dunkle Pupille nicht mehr zur Deckung. Des weiteren entstehen durch die Bewegungen weiter Strukturen im Bild, die mit Hilfe der Schwellwertbildung nicht mehr von dem Pupillenreflexunterschieden werden können. Diese Verfahren werden üblicherweise dann eingesetzt, wenn die zu beobachtende Person den Kopf nicht bewegen muss. Dazu zählen Gesichterkennungsaufgaben zur Identifikation von Personen, wie sie z. B. bei Bankautomaten eingesetzt werden sollen, sowie zur Bedienung von Computern mit den Augen.

Andere aus der Literatur bekannte Methoden sind die des Template Matching (Schablonenanpassung) (Xie et al. [31], Chow et al. [7]). Hierzu wird ein geometrisches Modell der Augen erstellt, welches adaptiv auf dem Bild angepasst wird. Der Nachteil dieser Verfahren ist, dass das Template adaptiv angepasst werden muss. Des weiteren neigen Templates dazu, die Augenbrauen anstatt der Augen zu detektieren. Dies ist dann der Fall, wenn die Anfangsposition der Templates nicht sorgfältig ausgewählt wurde (Xie et al. [31], Chow et al. [7]).

Die weitaus bekanntesten Verfahren zur Ermittlung der Augenpositionen sind schwellwert- und kantenorientierte Verfahren. Diese Verfahren werden in vielen wissenschaftlichen Veröffentlichungen zur Initialisierung der Ausgangsposition von Templates benutzt (Xie et al. [31], Chowet al. [7]). Weitere Möglichkeiten zur Initialisierung, sind Methoden zur Erkennung des Gesichtes. Hierbei wird mit Hilfe von statistischen oder geometrischen Methoden versucht das Gesicht einer Person aus Bildern zu extrahieren (Edwards et al. [9], Stiefelhagenet al. [26], Chow et al. [7], Zobel et al. [33]). Damit ist der Bereich, in dem nach Augen gesucht werden muss, schon weit eingeschränkt. Allen diesen Verfahren ist gemeinsam, da sie relativ langsam sind (Tian et al. [28], Lam, Yan [16]). Allein das Template Matching ist ein aufwendiger Prozess. Hinzu kommt die Ermittlung geeigneter Startpositionen für die Templates, welche mit den obigen Verfahren ermittelt werden. Diese Verfahren sind aber in der Kombination mit dem Template Matching ebenfalls langsam, da zwei Verfahren sequentiell benutzt werden.

Um den Aufwand bei der Augendetektion zu minimieren ist es notwendig das Gesamtbild ein oder zwei kleinere Suchbereiche zu unterteilen. Dazu werden zwei Boxen verwendet, die jeweils in der Nähe eines Auges positioniert werden. Mit der Verwendung dieser sogenannten Suchboxen ergeben sich zum einen Geschwindigkeitsvorteile, da nicht mehr das gesamte Bild untersucht werden muss und zum anderen wird die Fehlerrate reduziert, da der Iris ähnliche Objekte außerhalb der Boxen, wie Knöpfe, Muster auf Hemden usw., nicht mehr gefunden werden. Damit wird die eigentliche Entscheidung, ob es sich bei den gefundenen Kreisen um die Iris eines Auges handelt vereinfacht.

Nachdem die Position der Augen bekannt ist, muss daraus die Blickrichtung abgeleitet werden. Die Augen enthalten den größten Teil der Information über die Blickrichtung. Diese Information alleine ist allerdings noch nicht ausreichend, wenn bei der Blickrichtungsdetektion auch der Kopf bewegt werden darf. Viele Anwendungen gehen von der Annahme aus, da der Kopf nicht bewegt wird, was auch oft ausreichend ist. Dazu zählen Bankautomaten, bei denen die Identität über das Gesicht oder die Netzhaut geprüft wird, sowie eine mit den Augen gesteuerte Computermaus. Wird die Kopfbewegung nicht in Betracht gezogen, so ist die Information, die die Augen enthalten, ausreichend, um damit die Blickrichtung zu erkennen. In Baluja, Pomerleau [3] und Xu et al. [30] wird z. B. die Blickrichtungsdetektion allein mit den Augen mit Hilfe eines neuronalen Netzwerkes ermittelt.

Ein anderes Verfahren zur Blickrichtungsdetektion benutzt geometrischen Verfahren (Arrington [1]). Hierzu wird das Auge zusätzlich aktiv beleuchtet, so da ein Lichtreflex auf dem Auge zu erkennen ist. Die Lichtquelle ist dabei direkt vor der Person installiert. Ist die Position der Pupille sowie die Position des Lichtreflexes bekannt, so kann daraus die Blickrichtung erkannt werden. Die Position des Lichtreflexes entspricht dem Geradeausblick der Person. Mit Hilfe des Vektors zwischen Reflex und Pupille ist es nun möglich, die Blickrichtung zu berechnen. Bei diesem Verfahren ist es allerdings nötig, da hochauflösende Bilder von der Augenregion vorhanden sind.

Um die Blickrichtung auch bei Kopfbewegungen korrekt ermitteln zu können, ist es nötig weitere Information bereitzustellen. Dazu gehören weitere Gesichtsmerkmale, wie z. B. Nase und Mund. In Gee, Cipolla [6] ist ein Verfahren beschrieben, welches aus den Positionen von den Augen und dem Mund die Blickrichtung detektiert. Dazu wird der Mund durch eine Linie modelliert. Mit Hilfe dieser Linie und der Verbindungsstrecke beider Augen, ist es nun möglich die Blickrichtung zu detektieren. Allerdings muss dazu der Mund gefunden werden, was aufgrund der vielen möglichen Zustände des Mundes nicht einfach ist. Bei der Blickrichtungsdetektion in einem Kraftfahrzeug sind aber unter Umständen nicht beide Augen sichtbar. Bei extremer Verdrehung des Kopfes, z. B. bei Blick über die Schulter, ist nur ein Auge sichtbar und damit auch nur die Position eines Auges vorhanden.

Aufgabe der Erfindung ist es ein neuartiges, insbesondere für die Verwendung in einem Kraftfahrzeug geeignetes System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten zu finden. Des weiteren sollen zur Inkorporation in dieses System geeignete Vorrichtungen und Verfahren zum Betrieb dieser Vorrichtungen gefunden werden.

Die Aufgabe wird durch die Merkmale des in Anspruch 1 beschriebenen Systems gelöst. Die für dieses System geeigneten Vorrichtung und die zu deren Betrieb geeigneten Verfahren sind durch die Merkmale der Ansprüche 2, 21 und 24, sowie 3, 22 und 25 dargelegt. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind durch die Merkmale der untergeordneten Ansprüche beschrieben.

In erfinderischer Weise lässt sich das System zur Detektion der Blickrichtung in zwei Bereiche einteilen:

- Der erste Bereich beinhaltet eine Vorrichtung zur Detektion der Augen.
- Der zweite Bereich beinhaltet, dem ersten Bereich nachgeschaltet, eine Vorrichtung zur Bestimmung der Blickrichtung.

Dabei gliedert sich die Prozesskette innerhalb der Vorrichtung zur Detektion der Augen im wesentlichen in drei Stufen:

- Die erste Stufe wird durch Einheit zur Radienanpassung gebildet. Im Rahmen dieser Radienanpassung wird der Bereich, der zur Suche nach den Kreisen benutzt wird, auf r_min und r_max beschränkt, d. h. es werden keine Kreise mit kleineren bzw. größeren Radien detektiert; der Radius der Iris ist in den Bildern auf diesen Bereich beschränkt. Als untere Schranke r_min wird vorzugsweise auf einen so kleiner Wert festgelegt (z. B.: r_min = 3 Pixel), dass gerade noch Detektion der Iris bei halb geschlossenen Augen möglich ist. Werden diese Schranken r_min und r_max für die Radien nicht benutzt, so werden viele Fehlkreise zusätzlich zu der Iris der Augen detektiert. Wird z. B. die obere Schranke r_max zu hochgewählt, so werden viele kreis-ähnliche Strukturen detektiert, die nicht zu einer Iris gehören. Dazu gehören vor allem Schatten, die sich zwischen Nase und Augenbrauen erstrecken. Diese Schatten besitzen eine kreis-ähnliche Struktur mit großem Radius. Des weiteren werden Böge von Brillengestellen weitaus leichter detektiert, wenn große Radien zugelassen werden. Hinzu kommt, da bei zu großer Wahl der oberen Radiusgrenze der Kreisalgorithmus oft die Iris durch einen zu großen Kreis beschreibt. Es werden dann die Augenbrauen und das untere Lid als Grenzen des Kreises angesehen, da sich hier sehr hohe Kontrastübergänge befinden. Wird dagegen die unter Schranke des Radius zu klein gewählt, so werden viele kleine Kreise detektiert. Dazu Zählen kleine dunkel Objekte, die meistens nur aus vier bis 10 Bildpunkten bestehen. Da bei diesen kleinen Radien nicht mehr zwischen Kreisen und anderen Objekten in der Form unterschieden werden kann, werden so viele kleine Kreise detektiert. Dies kann mit der Beschränkung der Kreissuche auf einen kleinen Bereich zu einem großen Teil unterdrückt werden. Des weiteren verringert diese Einschränkung ebenfalls die Ausführgeschwindigkeit des Algorithmus, da nun weit weniger Kreisradien überprüft werden müssen.

Ideal wäre es aber, in einem noch kleineren Intervall von ca. 5 bis 6 Radien nach dem erwünschten Kreis suchen zu lassen. Damit muss aber im voraus bekannt sein, wie groß der Radius der Iris ist. Aus diesen Gründen verwendet das erfindungsgemäße Verfahren vorzugsweise eine adaptive Radienanpassung, welche den Bereich der Radien weiter einschränkt und auf jedes Bild neu adaptiert. Dazu werden die obere und untere Schranke der Radien r_min und r_max bei jedem Bild neu eingestellt. Als Referenzwert wird hierbei in vorzüglicher Weise der Radius r des Kreises benutzt, welcher die Iris umschreibt. Auf dieser Basis werden die neuen Werte von r_min und r_max aufwendige Bildpixel (Bildauflösungen) weniger beziehungsweise mehr als r festgelegt (z. B.: r_min = r - 2 und r_max = r + 3).

Die neuen Bereiche für die Radien rmin und rmax dürfen dabei bestimmte absolute Grenzen nicht unter- bzw. Überschreiten (z. B.: r_min < = 3 und r_max < = 12 Pixel). Sollte in im Betrieb des Systems dennoch eine Grenzüberschreitung durch r_min und r_max auftreten, so müssen r_min und r_max so korrigiert/begrenzt werden, dass innerhalb dieser maximalen Schranken zu liegen kommen.

Die neue Wahl des Radienbereiches r_min und r_max wird vorzugsweise immer auf das nachfolgende Bild angewandt. Da sich die Größe der Iris von Bild zu Bild jedoch nicht allzu sehr verändert, ist der aus diesem Vorgehen resultierende Fehler vernachlässigbar. Wird in einem Bild kein Auge detektiert, so ist es vorteilhaft, die Werte r_min und r_max unverändert zu belassen und so bei der Bearbeitung des nachfolgenden Bildes anzuwenden.

- Die zweite Stufe der Prozesskette innerhalb der Vorrichtung zur Detektion der Augen beinhaltet eine Vorrichtung zur Kreisdetektion. Beispielsweise ist es denkbar hierzu die Hough-Transformation heranzuziehen. Nach der Erzeugung der Schnittpunkte bzw. der Häufungen von Schnittpunkten im Akkumulatorfeld, müssen daraus die Mittelpunkte und Radien der Kreise extrahiert werden. Zur Bestimmung des Kreismittelpunktes wird vorzugsweise ein Schwellwertverfahren eingesetzt, welches die Häufungen im Akkumulatorfeld isoliert. Ein für das System zur Blickrichtungsdetektion geeignetes Verfahren bestimmt den Schwellwert aus einem Histogramm. Dabei wird aus der Helligkeitsverteilung im Akkumulatorfeld ein Histogramm berechnet, welches die Verteilung der Helligkeiten enthält. Beispielsweise wird das Histogramm mit histo[i] mit 0 < = i < = 255 bezeichnet. Es kann hierbei als Vektor der Länge 256 angesehen werden. Das Histogramm enthält dabei 256 Einträge von 0 bis 255, da das beispielhaft verwendete Bildformat 256 Graustufen besitzt.

Es werden sodann die N hellsten Punkte gesucht, beginnend mit den Punkten die der größten Helligkeitsstufe (hier: 255) zuzuordnen sind. Sind sodann N Punkte selektiert, dient der Helligkeitswert des N Punktes sodann als Schwellwert für das weitere Verfahren. In der Folge werden im Akkumulator alle Punkte deren Helligkeitswert unterhalb dieser Schwelle liegen unterdrückt. Die anderen Punkte werden mit ihrer dazugehörigen Helligkeit belassen. Im Akkumulatorfeld bilden sich nach dem Schwellwertverfahren Inseln, welche den Bereich eines möglichen Mittelpunktes eines Kreises angeben. Aus diesem Schwellwertbild müssen sodann Objekte extrahiert werden. Dazu wird Algorithmus der auf Grauwertbildern arbeitet benutzt; ein sogenannter Color Connected Components Algorithmus (Farblich Verbundene Komponenten) kurz CCC genannt. In den mit Hilfe von CCC kodierten Objekten, werden die Mittelpunkte von Kreisen auf Grundlage einer Berechnung der Schwerpunkte in jedem dieser Objekte bestimmt. Somit sind die Mittelpunkte der Kreise bekannt und es müssen nachfolgend die zugehörigen Radien bestimmt werden.

Vorzugsweise wird zur Bestimmung der Kreisradien wird der zuvor berechnete Schwerpunkt benutzt. Dabei werden von ihm ausgehend Kreise mit den Radien r = r_min, . . ., r_max berechnet und mit den Punkten aus dem Kantenbild verglichen. Dabei werden alle Punkte, die auf dem entsprechenden Kreisradius r liegen und deren Normale in diesem Punkt, bis auf eine Toleranz, in Richtung Kreismittelpunkt zeigen gezählt. Die Anzahl der Treffer werden anschließend normiert, d. h. durch die Anzahl der maximalen Punkte dieses Radius geteilt. Somit wird eine Größe des Kreises erzeugt, welche die Anzahl der Treffer zu diesem Kreis mit diesem Radius wiedergibt, d. h. Güte = Anzahl_der_Treffer/(2πr). Vorzugsweise wird der Kreis mit der besten Güte beibehalten, wogegen die anderen verworfen werden.

Um Ungenauigkeiten der Hough-Transformation, die bei der Diskretisierung des Akkumulatorfeldes und der Diskretisierung der Gradienten entstehen, zu korrigieren, wird vorzugsweise nicht nur der Schwerpunkt der CCC codierten Objekte nach Kreisen untersucht, sondern auch eine Umgebung um diesen; als vorteilhaft erweist sich ein 5 × 5 Bildpixel großer Umgebungsbereich. Aus den aus dieser Umgebung bestimmten Kreisen wird wiederum der beste behalten. Dieser Kreis bestimmt sodann den eigentlichen Mittelpunkt.

In besonders Vorteilhafter Weise ist es auch denkbar im Rahmen der Erfindung an Stelle eines Schwellwert basierten Verfahrens zur Augendetektion ein kanten orientiertes Verfahren zu verwenden, welches auf Grundlage der polaren Kantendetektion arbeitet. Der Vorteil der kanten-orientierten Verfahren gegenüber dem Schwellwertverfahren ist ihre Unempfindlichkeit gegenüber Lichtschwankungen sind, da Differenzen betrachtet werden. Die Kantendetektoren beruhen im allgemeinen auf dem kartesischen Koordinatensystem. Da aber bei der Augendetektion nach der Iris gesucht wird, welche gut durch Kreise beschrieben werden kann, ist ein Verfahren von Vorteil, welches diese polare Eigenschaft direkt nutzt. In Wilson [29] wird ein solches Verfahren beschrieben. Es handelt sich dabei um einen polaren Kantendetektor, der Gleichung 1 beschrieben wird:

Die zu untersuchende zweidimensionale Funktion wird mit l(x, y) bezeichnet, wobei x und y die kartesischen Koordinaten dieser Funktion darstellen. Ausgehend von dieser Funktion l(x, y) wird ein kreisförmiger Weg mit Radius r an der Position (x₀, y₀) durchlaufen und die Intensitäten l(x, y) auf dieser Kreisbahn integriert und anschließend mit dem Faktor 2πr normiert. Dieser Vorgang kann mit einer Mittelwertbildung entlang der Kreisbahn verglichen werden. Die Integration entlang einer Kreisbahn wird nach dem Radius r abgeleitet, womit der Gradient der verschiedenen Integrationen bei verschiedenen Radien an der Position (x₀, y₀) gebildet wird. Mit Hilfe der Maximumbildung wird der größte Gradient entlang des Radius r ermittelt. Dieser Vorgang wiederholt sich für alle Punkte der Funktion l(x, y), so dass für jede Position (x, y) ein maximaler Gradient gebildet wird. Dieses Verfahren gibt demnach für jeden Punkt der Funktion l(x, y) eine Bewertung eines Kreises an der Stelle (x, y) und dessen besten Radius r an. Es ist dabei irrelevant, ob es sich bei den untersuchten Positionen tatsächlich um kreis-ähnliche Strukturen handelt. Je besser die Struktur an der Stelle (x, y)einem Kreis ähnelt, desto höher ist die Bewertung.

Um die polare Kantendetektion in der Bildverarbeitung nutzen zu können, ist es nötig Gleichung 1 zu diskretisieren, da die Bilddaten f(x, y) dem erfindungsgemäßen Verfahren ebenfalls diskret vorliegen, und somit der diskretisierten Funktion l(x, y) entsprechen. Aus diesem Grunde schlägt die Erfindung verwendet die Erfindung in vorteilhafter Weise ein neuartiges, nachfolgend beschriebenes Konzept zur Diskretisierung von Gleichung 1. In Fig. 1 ist die diskretisierte Vorgehensweise schematisch abgebildet.

Fig. 1 zeigt den polaren Kantendetektor nach Diskretisierung der Variablen. Für jeden Radius wird eine Kreisbahn beschrieben, auf welcher die Intensitäten aufaddiert werden.

Der Kern des polaren Kantenoperators ist das Umlaufintegral, welches einen kreisförmigen Weg mit Radius r an der Position (x0, y0) beschreibt. Diese Integration muß bei der Verwendung von Bilddaten in eine Summation umgewandelt werden. Für einen bestimmten Radius r ergibt sich dann für das Umlaufintegral der Wert µ_r zu:

Das Abrunden der Kreisfunktion ist nötig, da mit diskreten Bilddaten gearbeitet wird. Aus diesem Grund sind alle Positionen (x, y) innerhalb eines Bildes durch ganze Zahlen dargestellt. Das Gleiche gilt für den Radius r. Diese Summation entspricht der Bildung eines Mittelwertes µ_r der Grauwertverteilung des Bildes entlang einer Kreisbahn mit Radius r. Diese Mittelwertbildung kann mit Hilfe einer Funktion s_r(i) = (s_r,x(i), s_r,y(i))^┬, welche einer parametrisierten Kurve entspricht, allgemeiner beschrieben werden:

Mit Hilfe der Funktion s_r(i) können beliebige Wege beschrieben werden, entlang derer ein Mittelwert berechnet wird.

In erfinderischer Weise wird nun vorzüglich die polare Kantendetektion dahingehend verallgemeinert, daß sie neben den üblicherweise kreisförmigen Wege auch beliebig anders gestaltete Wege detektieren kann. Die Grundidee hierbei ist der Wunsch auch Augen mit Hilfe der Detektion der Iris zu finden. In den meisten Fällen wird aber die Iris teilweise von den Augenlidern oben und unten verdeckt. Dabei ist die Verdeckung durch die Augenlider oben stärker ausgeprägt als unten. Durch diese Verdeckung ist die Iris kein perfekter Kreis mehr, sondern ein Kreis, der durch zwei Kreisbögen unten und oben abgeschnitten ist. Aus diesem Grund ist es nötig, die Pfade zur Kreissuche so anzupassen, dass diese Verdeckung mit in Betracht gezogen wird.

In Fig. 2 sind verschieden Wege dargestellt, womit die Verdeckung der Iris durch die Augenlider kompensiert werden soll ((a) Kreis, (b) Ellipse, (c) offener Kreis, (d) ergänzter Kreis, (e) Rechteck). Die dick eingezeichneten Abschnitte sind diejenigen Positionen, die in die Mittelwertbildung mit einbezogen wurden. Die dünn gezeichneten Abschnitte stellen Hilfslinien zur Orientierung dar.

Fig. 2 beschreibt verschiedene verwendete Wege bei der Mittelwertbildung.

In Abbildung a) von Fig. 2 ist der schon erwähnte Kreis dargestellt, welcher die Verdeckung zwar nicht berücksichtigt, dafür aber die wenigsten zusätzlichen Parameter besitzt. Die Verdeckung der Augenlider wird am Besten durch den Weg aus Abbildung d) in Fig. 2 angenähert. Dabei wird der Kreis oben und unten aufgeschnitten. Die entstehenden Lücken werden mit Hilfe zweier Strecken überbrückt. Die beiden Lücken werden mit den Winkeln α und β beschrieben, welche die Öffnungswinkel, beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht die Kreisdetektion einbezogen werden, festlegen. Eine andere vorteilhafte Gestaltung der Kreisbahn ist aus Abbildung c) ersichtlich. Die Ellipse aus Abbildung b) in Fig. 2 besitzt gegenüber den anderen Bahnen nur einen zusätzlichen Parameter, nämlich das Verhältnis der beiden Hauptachsen der Ellipse. Da die Ausdehnung der Ellipsen in beiden Richtungen unterschiedlich ist, werden bei verschiedenen Radien die gleichen Punkte mehrmals mit in die Auswertung einbezogen: Dies ist auf die Diskretisierung des Bildes zurückzuführen, da nur ganzzahlige Positionen zulässig sind. Dies stellt aber bei der Auswertung keinen Nachteil dar. Die Abbildung e) in Fig. 2 ist ein Rechteck. Das Rechteck stellt eine grobe Näherung von Abbildung d) dar, da viele Kreise relativ klein sind und der Kreisbogen durch eine Gerade angenähert werden kann. Die in Fig. 2 aufgezeigten Abbildungen stellen selbstverständlich nur Beispiele von möglichen Bahnen, auf welche der polare Kantendetektor optimiert wird, dar. Es ist nun denkbar das Erfindungsgemäße Verfahren dergestalt auszuführen, dass die für die aktuellen Bilddaten optimale Kontur entsprechend den Beispielen aus Fig. 2 angewandt wird.

Ausgehend von Gleichung 1 des polaren Kantenoperators ist ersichtlich, dass nicht der maximale Wert eines Wegintegrals gesucht wird, sondern die maximale Veränderung zweier aufeinanderfolgender Wegintegrale. Dies ist auch sinnvoll, da nach dem größten Übergang von Dunkel nach Hell gesucht wird. Die Iris des Auges ist in Bildern im allgemeinen als schwarze Scheibe zu erkennen, wohingegen der Bereich um die Iris sehr hell ist. Genau dieser Übergang von Dunkel nach Hell soll detektiert werden; da dies den besten Kreisbahn liefert, der die Iris beschreibt. Die Ableitung nach dem Radius r aus Gleichung 1 mit Differenzen realisiert werden. Damit ergibt sich als erste Näherung folgender Ansatz:

V_r = µr - µr - 1 Gl.4

V_r stellt die Bewertung für einen Mittelwert mit Radius r dar. Um den besten Kreis zu finden, ist es nötig das größte V_r zu finden. Es müssen deshalb für einen bestimmten Bereich r_min bis r_max die V_r erzeugt und miteinander verglichen werden.

Die erste Näherung der Ableitung nach dem Radius ist wie in Gleichung 4 angegeben anfällig auf Schwankungen zwischen den einzelnen Mittelwerten. Die Iris ist bei realen Bedingungen keine exakte schwarze Scheibe, sondern besitzt Helligkeitsschwankungen, die beispielsweise von Reflexionen herrühren. Diese Schwankungen wirken sich negativ auf die Bewertung des Kreises bei Radius r auf, wenn sie an der Kante der Kreisscheibe auftreten. Um diese Helligkeitsschwankungen besser kompensieren zu können, ist es besonders vorteilhaft die Bewertung über mehrere Mittelwerte zu bilden. Dies kann folgendermaßen dargestellt werden, wenn n die Anzahl der Mittelwerte ist, die mit in die Bewertung einbezogen werden sollen:

Für die Bewertungsberechnung hat sich ein Wert von n = 2 als sehr zuverlässig herausgestellt. Damit vereinfacht sich Gleichung 5 zu

Werte größer als zwei sind meist nicht sinnvoll, da dann die Bewertung im allgemeinen schlechter wird. Dies ist besonders dann der Fall, wenn in der Iris Gebiete mit großer Helligkeit auftreten. In diesem Fall ist der Mittelwert schon sehr groß, bevor überhaupt der Rand der Iris betrachtet wurde. Der Sprung des Mittelwertes am Rand der Iris ist dann nicht mehr so groß und dieser Kreis bekommt eine schlechte bzw. schwache Bewertung bzw. der falsche Radius r wird ermittelt. Der Fall n = 2 stellt daher einen Kompromiß zur Kompensation von solchen Schwankungen innerhalb der Iris dar.

Mit diesem Ansatz kann die Iris von Augen gut detektiert werden. Allerdings werden auch kreis-ähnliche Strukturen detektiert, die keine Iris von einem Auge darstellen. Dazu gehören vor allem Brillen und Augenbrauen. An Brillen sind sehr große Kontraste vorhanden, die ebenfalls als Kreise detektiert werden, obwohl sie keiner kreis-ähnlichen Struktur entsprechen. Da die Auswertung der Wegintegrale über Mittelwerte vollzogen wird, ist bei diesen "Fehltreffern" die Differenz des Mittelwertes größer als bei der Iris, die unter Umständen keinen so großen Kontrast besitzt. Um diese Fehltreffer zu eliminieren, ist es besonders vorteilhaft in erfinderischer Weise die Auswertung der Wegintegrale zu erweitern. Hierbei macht man sich die Erkenntnis zu nutze, dass der entscheidende Unterschied von diesen Fehltreffern zu richtigen Kreisen in der Uneinheitlichkeit der Helligkeitsverteilung entlang der Kreisbahnen liegt. Bei Augenbrauen ist z. B. in senkrechter Richtung überhaupt kein Kontrast vorhanden. Dafür ist aber der Kontrast oben und unten an der Augenbrauen sehr ausgeprägt. Aus diesem Grund zieht das erfindungsgemäße Verfahren die Varianz der Helligkeiten entlang der Kreisbahn mit in die Auswertung der Wegintegrale ein. Es wird somit nun neben dem Mittelwert aus Gleichung 1 ebenfalls der quadratische Mittelwert µ_r² berechnet, d. h.

Damit kann die Varianz mit Hilfe der direkten Beziehung zwischen Mittelwert und dem quadratischen Mittelwert ermittelt werden.

Die Varianz des Umlaufintegrals wird nun gemäß Gleichung 9 mit in die Bewertung einbezogen:

Die Varianz wird nicht wie der Mittelwert als Differenz in die Bewertung einbezogen, sondern immer direkt mit dem jeweiligen Radius verrechnet. Das Problem der Varianz ist, sie mit einem geeignetem Gewichtungsfaktor in die Bewertung mit aufzunehmen. Hier hat sich ein Wert von c = 0.001 als ausreichend erwiesen. Dieser Wert darf nicht zu klein gewählt werden, da dann der Effekt der Varianz ansonsten verschwindet. Wird der Gewichtungsfaktor c zu groß gewählt, so werden auch kleine Ungleichmäßigkeiten auf der Kreisbahn der Iris zu sehr gewertet und diese nicht mehr detektiert.

Der oben beschriebene erfindungsgemäße polaren Kantenoperator, entsprechend der Gleichungen 1-9 läßt sich besonders vorteilhaft in dem System zur Blickrichtungsdetektion und/oder Augendetektion verwenden. Selbstverständlich ist es aber auch denkbar den polaren Kantenoperator auch in ähnlichen Systemen gewinnbringend einzusetzen; beispielsweise bei Systemen zu Identifikation von Personen durch Vergleich der Struktur der Iris (wie bei Geldautomaten und Zugangskontrollen).

Der polare Kantenoperator gibt eine Bewertung für einen Kreis an jeder Stelle (x, y) des Bildes zurück. Aus diesen Bewertungen muß entschieden werden, welcher dieser Kreise für die Weiterverarbeitung genutzt werden soll. Ebenso wie bei den Verfahren mit der Hough-Transformation werden die besten Kreise ausgewählt und dem nächsten Verarbeitungsschritt übergeben. Dazu wird in einer denkbaren Ausgestaltung des Verfahrens der gesamte Suchbereich mit Hilfe des polaren Kantenoperators ausgewertet und anschließend sortiert, so daß die N besten Kreise an erster Stelle einer Liste mit allen bewerteten Kreisen stehen. Der Suchbereich wird dazu Zeile für Zeile durchlaufen und jeder Punkt ausgewertet. Am Ende einer Zeile wird diese nach den N besten Kreisen sortiert und die nächste Zeile wird verarbeitet. Nach der Verarbeitung dieser Zeile werden wieder die N besten Kreise aus der Liste herausgenommen. Nach der letzten Zeile sind dann die N besten Kreise des gesamten Suchbereichs in einer Liste sortiert vorhanden.

Eine andere besonders vorteilhafte Alternative zur Unterdrückung von unerwünschten Nachbarkreisen, wird durch nachfolgenden Algorithmus beschrieben. Dabei wird zunächst der beste Kreis aus der Liste aller Kreise herausgenommen. Der nächstbeste Kreis muß nun einen bestimmten Abstand d zum vorherigen Kreis besitzen, bevor er aus der Liste herausgenommen wird. Dies wird solange wiederholt, bis die N besten Kreise extrahiert wurden. Durch dieses Verfahren wird die Wahrscheinlichkeit erhöht, daß sich der gesuchte Kreis bei den N besten Kreisen befindet, falls dieser schwach bewertet wurde.

Eine besonders erfinderische Alternative zur Unterdrückung von Nachbarkreisen stellt ein Verfahren dar, welches nicht den gesamten Suchbereich auswerten muß. Ein entsprechendes Verfahren ist in Fig. 3 beschrieben.

Fig. 3 zeigt einen spiralförmigen Pfad, der bei der Bewertung der einzelnen Positionen innerhalb der Suchbox verwendet wird.

Im Rahmen dieses Verfahrens wird statt der zeilenweisen Auswertung des Suchbereichs ein spiralförmiger Weg beschrieben. Dieser Weg ist in Fig. 3 dargestellt. Begonnen wird mit der Suche in der Mitte des Suchbereichs (Suchbox). Ist die Mitte der Suchbox nahe am Auge plaziert, so wird diese Position schon nach wenigen Schritten erreicht. Ist das Auge eher am Rand der Suchbox plaziert, so muß nun trotzdem die gesamte Suchbox untersucht werden. Da aber davon ausgegangen werden kann, daß der Fahrer die meiste Zeit in die gleiche Richtung schaut, ist das Plazieren der Box relativ einfach und das Auge befindet sich meistens in der Mitte der Suchbox. Um bei heftigen Kopfbewegungen trotzdem die Suchbox über dem Auge zu plazieren, müssen jedoch geeignete, nachfolgend beschriebene Algorithmen zur Augenverfolgung benutzt werden, die die Suchbox immer korrekt plazieren.

Durch den spiralförmigen Weg, der bei der Bewertung der Kreise innerhalb der Suchbox durchgeführt wird, ergeben sich bestimmte Anordnungen der Bewertungen entlang dieses Pfades. Ist ein Bereich mit hohen Bewertungen nicht in der Mitte der Suchbox, sondern etwas verschoben dazu, so wird bei jedem Umlauf der Spirale dieses Bewertung übernommen. Da die Spirale annähernd kreisförmig ist, wiederholt sich dieser Bereich mit der Periode der Spirale. Aus diesen Auswertungen sollen die Maxima extrahiert werden, an denen sich mit hoher Wahrscheinlichkeit Kreise befinden. Mit Maxima sind allerdings dabei nicht die Spitzen der einzelnen Bewertungsmaxima, sondern die Maxima der Einhüllenden aller Bewertungsmaxima über den gesamten bisherigen Umlauf gemeint.

Dazu wurde in erfinderischer Weise ein Algorithmus entworfen, der aus diesen Anordnungen der Bewertungen nur die interessanten Maxima extrahiert. Da die Spirale eine kreisähnliche Struktur besitzt, hat sie dementsprechend eine Periode. Diese Periode kann dazu benutzt werden, die interessanten Maxima zu extrahieren. Zur Verdeutlichung soll nachfolgend von einem Suchbereich (Suchbox) in der Größe von 75 × 45 Bildpunkten ausgegangen werden. Dies entspricht 3375 Punkten. Die einzelnen Spitzen in den Anordnungen besitzen hierbei einen Abstand von ca. 80 bis 120 Punkten. Dieser Abstand müßte sich prinzipiell mit dem Radius der Spirale ändern. Es zeigt sich aber, dass die Stellen mit den Maxima der Bewertungen meist über ein kleines Gebiet ausgedehnt sind. Damit wirkt sich die Periode am Anfang der Spirale bei kleinen Radien nicht sehr aus, so daß eine konstante Periode über den gesamten Bereich angenommen werden kann.

Fig. 4 zeigt das Flußdiagramm des Algorithmus zur Maximumssuche entlang eines spiralförmigen Pfades.

Der vorteilhafte, erfindungsgemäße Algorithmus läuft entsprechen Fig. 4 in folgenden Schritten ab:

Zunächst wird ein Index auf den Beginn der Liste mit allen Bewertungen gesetzt. Dieser Index wird mit index bezeichnet und ist zu Anfang mit index = 0 initialisiert. Des weiteren werden zwei Variablen, welche das zuletzt gefundene Maximum lastvalue und das im Moment zu suchende Maximum maxvalue bezeichnen definiert. Mit maxpos wird die Position des zu suchenden Maximums bezeichnet und wird zu Beginn mit maxpos = 0 initialisiert. Die einzelnen Bewertungen sind in val[i] abgelegt, wobei i die Position innerhalb dieser Liste ist. Da eine konstante Periode, d. h. ein konstanter Abstand zwischen den einzelnen Spitzen angenommen werden kann, ist es nur nötig, bis zur nächsten Spitze nach einem neuem Maximum zu suchen. Dazu ist ein Zähler notwendig, welcher mit count bezeichnet wird. Die Entfernung der Spitzen wird in der konstanten Variablen dist festgehalten, welche dem Algorithmus als Parameter übergeben werden muß. Nun wird das nächste Maximum in einer Umgebung von dist Punkten von der momentanen Position index gesucht. Dazu werden alle Werte miteinander verglichen und der höchste Wert in maxvalue gespeichert. Wird ein Wert höher als maxvalue gefunden, so werden erneut von der Position von maxvalue wieder dist Punkte untersucht, bis kein neuer Wert größer als maxvalue erscheint. Ist dieser Punkt erreicht, so wird maxvalue mit lastvalue verglichen. Ist maxvalue größer als lastvalue, so wurde ein Maximum gefunden und es wird in einer Liste mit Maxima abgelegt (store). Unabhängig von diesem Ausgang; wird nun lastvalue zu maxvalue gesetzt, und die Suche von der Position von maxvalue plus einem Offset offset erneut gestartet. Der Offset soll verhindern, daß Werte die dicht an dem Maximum liegen erneut mit in die Auswertungen einbezogen werden, da der Abfall nach einem Maximum erst nach wenigen Punkte auf einen sehr kleinen Wert zurückgeht. Da aber Hauptmaxima gefunden werden sollen, ist es nötig diese Werte zu überspringen. Der Wert offset muß dem Algorithmus ebenfalls als Parameter übergeben werden. Hat der Zeiger index das Ende der Liste erreicht, so wird der Algorithmus abgebrochen. Durch Einsatz eines Zählers, welche die Anzahl der bisher gefundenen Maxima zählt, kann ebenfalls nach einer bestimmten Zahl von gefundenen Maxima abgebrochen werden. Damit kann wieder die Forderung nach den N besten Kreisen erfüllt werden, nur daß es sich nun um eine andere Sortierreihenfolge der Kreise handelt, von denen die ersten N Kreise ermittelt wurden. Die Parameter dist und offset sind dem Algorithmus zur Konfiguration zur Verfügung zu stellen. Zur Vereinfachung wurde auf das Zählen der bisher gefunden Maxima in Fig. 4 verzichtet. Das Ziel dieser Suche des Maximums ist, nicht alle Punkte der Suchbox untersuchen zu müssen, sondern nur einen Teil. Dazu ist es aber notwendig zu wissen, welcher Kreis der gesuchte ist, d. h. eine Iris umschreibt. Hier kommt ein nachfolgend beschriebener Klassifikator, welcher die Entscheidung - "Auge" oder "nicht Auge" treffen kann, zum Einsatz. Wird während der Ausführung des Algorithmus ein Maximum gefunden, so wird es dem Klassifikator übergeben, anstatt es in der Liste der Maxima zu speichern. Handelt es sich bei dem gefundenen Kreis um die Iris eines Auges, so wird der Algorithmus abgebrochen. Handelt es sich um kein Auge, so muß der nächste Kreis gesucht werden, welcher dann wiederum mit Hilfe des Klassifikators verifiziert wird. Dieser Vorgang wiederholt sich, bis alle Punkte in der Suchbox untersucht wurden. Es ist sehr wohl aber auch denkbar, daß der Klassifikator nicht in einer solchen Wechselwirkung mit der Kreisdetektion arbeitet, sondern nach Detektion aller Kreise diese als Liste übergeben erhält und sodann alle Kreise zugleich (zeitgleich oder in direkter Abfolge) klassifiziert.

- Die dritte Stufe innerhalb der Augendetektion bildet ein Klassifikator, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt. Es ist bei der Konfiguration des Klassifikators sehr wohl denkbar nicht in nicht nur bezüglich einer Suche nach "Auge vorhanden" → ja/nein zu konfigurieren; sondern auch eine Klassifikation bezüglich eines geöffneten bzw. geschlossenen Auges vorzunehmen. Dies wiederum erlaubt in erfinderischer Weise eine Funktionalität eines Systems zu generieren, welches für den Fall, daß die Zeitdauer während welcher die Augen einer beobachteten Person geschlossen bleiben, signifikant länger als die Dauer eines Lidschlages fortwährt, einen zur Einschlafwarnung geeigneten Mechanismus auslöst und/oder notwendige Maßnahmen zur Verhinderung von Unfällen ergreift. Dies ist besonders bei der Beobachtung von Fahrzeuglenkern und Bedienpersonal von Maschinen von Vorteil.

Bezüglich der Art des Klassifikators stellt das erfindungsgemäße Verfahren zur Augendetektion keine besonderen Ansprüche. Im allgemeinen wird ein lernender Klassifikator verwendet, welchem in einer Trainingssequenz typische zu klassifizierende Muster repräsentiert werden (Polynomklassifikator, Neuronale Netze). Entsprechen der Anwendung ist es denkbar den Klassifikationsprozess so auszugestalten, daß jedes der beiden Augen der beobachteten Person individuell klassifiziert wird, oder aber daß ein Klassifikator so ausgelegt wird, daß er die Bilddaten beider Augen gemeinsam klassifiziert. Entsprechend ist das Verfahren zur Augendetektion mit einem gemeinsamen oder zwei individuellen, augen-spezifischen Suchbereichen (Suchboxen) auszugestalten.

Die Blickrichtungserkennung hängt entscheidend von der Detektion der Äugen innerhalb der Bilddaten ab, da diese einen großen Teil der Information über die Blickrichtung des Fahrers enthalten. Deshalb ist die Suche nach den Augen ein wichtiger Schritt. Zur Detektion der Augen werden vorzugsweise Suchboxen eingesetzt welche kleiner als das Gesamtbild sind und somit das Auffinden der Augen vereinfachen und erheblich beschleunigen. Im folgenden wird näher auf die Verwendung von Suchboxen eingegangen. Im Anschluß werden erfindungsgemäße Verfahren beschrieben welche die aus der Verwendung von Suchboxen resultierende Nachteile ausgleichen.

Wie eingangs erwähnt sind die meisten vorveröffentlichten Verfahren zur Blickrichtungsdetektion aufgrund ihrer Laufzeit für die Fahrerbeobachtung nicht einsetzbar. Der Grund liegt unter anderem in der Anzahl der zu verarbeitenden Bildpunkte. Die Bilder der Kamera sind in der PAL Norm aufgenommen worden. Dabei werden immer zwei Halbbilder zu einem Bild zusammengefaßt, so dass sich eine effektive Bildauflösung von horizontal 768 und vertikal 576 Bildpunkten ergibt. Insgesamt müssen demnach 442368 Bildpunkte untersucht werden. Wird das gesamte Bild zur Augendetektion benutzt, so ergibt sich ein weiterer Nachteil: In den Bildern sind viele der Iris ähnliche Objekte enthalten, die ebenfalls von den Algorithmen der Augendetektion durch Kreise beschrieben werden. Dadurch ist die Wahrscheinlichkeit einer Fehlentscheidung durch den Klassifikator wesentlich höher. Aus diesem Grund ist es vorteilhaft, das gesamte Bild in ein oder zwei kleinere Suchbereiche zu unterteilen (zwei Suchbereiche wenn jedes Auge einzeln detektiert und klassifiziert werden soll; ein Suchbereich wenn beide Augen gemeinsam detektiert und klassifiziert werden sollen). Hierzu werden Boxen (Suchboxen) verwendet, die jeweils in der Nähe eines Auge positioniert werden. Die Nachteile der Verwendung von Suchboxen ist dadurch gegeben, dass diese immer in der Nähe der Augen plaziert sein müssen, damit die Algorithmen der Kreisdetektion auch die Iris detektieren können. Ist innerhalb einer Suchbox kein Auge vorhanden, so werden zwar trotzdem Kreise gefunden, diese werden aber vom Klassifikator als "kein Auge vorhanden" klassifiziert.

In vorteilhafter Weise wird bei dem erfindungsgemäßen Verfahren das Plazieren der Suchboxen wird mit einer Augenverfolgung realisiert. Vorzugsweise plaziert die Augenverfolgung dabei die Suchboxen nach jedem Bild neu, so dass die Iris innerhalb der Suchbox zu finden ist und die Algorithmen der Augendetektion diese finden können. Ausgangspunkt für die Augenverfolgung ist die zuletzt gefundene Augenposition. Mit Hilfe dieser Position wird nun versucht, die Suchbox im nächsten Bild korrekt zu plazieren. Dazu müssen aber in den Suchboxen die Augen korrekt erkannt werden.

In einer möglichen Ausführungsform der Augenverfolgung wird bei dem erfindungsgemäßen Verfahren die Augenverfolgung mittels einer linearen Vorhersage der Position der Suchboxen realisiert. Dabei wird davon ausgegangen, dass die Bewegung des Kopfes eine konstante Geschwindigkeit besitzt. Beschleunigungen werden demnach nicht berücksichtigt. Ist die Abtastrate der Bildsequenzen groß genug, so besitzt diese Annahme nur einen kleinen Fehler. Die Position der Suchboxen für das nächste Bild n+1 wird aus den beiden zuletzt gefundenen Positionen der Augen aus dem aktuellen n und letztem n-1 Bild berechnet. Die Augenpositionen werden mit m (i)|n = (m (i)|n, x, m (i)|ny) bezeichnet, wobei mit i das linke oder rechte Auge bezeichnet wird, d. h. i∈ {links, rechts}. Die Suchboxposition wird mit x(i) beschrieben. Da bei diesem Verfahren zur Augenverfolgung Augen aus mehreren Bildern betrachtet werden, existieren verschiedene Zustandskombinationen der Augen. Die unterschiedlichen Zustände entstehen, wenn die Augen als voneinander abhängig betrachtet werden.

Werden beide Augen unabhängig voneinander betrachtet, so reduziert sich der Aufwand auf vier Zustände pro Auge. Hinzukommt, daß die Augen einen bestimmten Augenabstand zueinander besitzen. Wird dies ebenfalls berücksichtigt, so müssen wiederum alle sechzehn Zustände betrachtet werden, da sich die Augen zueinander orientieren und dadurch die einzelnen Zustände ebenfalls berücksichtigt werden müßten. Nachteil einer starren Kopplung beider Augen ist, daß teilweise dann keine Augen gefunden werden, wenn der Kopf sehr zu einer Seite zeigt. In diesem Fall wird ein Auge von der Nase verdeckt und kann nicht detektiert werden. Sind beide Suchboxen mit einander gekoppelt, d. h. die Suchboxen orientieren sich zueinander, so wird bei weiterer Drehung des Kopfes eine der Suchboxen aus dem Kopfbereich hinausgeschoben und befindet sich nach zurückdrehen weiterhin außerhalb des Kopfbereiches. Aus diesem Grund ist es denkbar und sinnvoll die Augen nicht starr zu koppeln, sondern ebenfalls getrennt zu betrachten. Das Problem der Augenverfolgung ist, dass die Kopfbewegung von einem dreidimensionalen Raum in einen zweidimensionalen Darstellungsraum abgebildet wird. Damit ändert sich der Abstand der Augen je nach Drehung des Kopfes auf dem Bild.

Die lineare Schätzung der Suchboxposition ist nur dann gültig, wenn die Geschwindigkeit der Augen konstant ist. Bei plötzlichem Richtungswechsel kann die Annahme der konstanten Geschwindigkeit nicht mehr eingehalten werden. Weitere Probleme ergeben sich, wenn keine Augen gefunden wurden. Dies ist besonders dann der Fall, wenn geschlossene Augen im Bild enthalten sind, da diese nicht direkt detektiert werden können.

Um diese Probleme zu minimieren, bietet es sich in vorteilhafter Weise an entsprechende Erweiterungen der linearen Augenverfolgung zu implementieren. Eine Möglichkeit ist die bereits erwähnte Koppelung der Augen. Wird in einer der Suchboxen kein Auge gefunden, dann kann die Position der Suchbox, in der ein Auge gefunden wurde, im nächsten Bild mit dem obigen Verfahren gut geschätzt werden. Die andere Suchbox, in der kein Auge detektiert wurde, wird nun relativ, entsprechend der alten relativen Position im vorherigen Bild, zu der Suchbox mit dem detektierten Auge plaziert. Eine weitere denkbare Möglichkeit der Ausgestaltung des erfindungsgemäßen Verfahrens ist Einbeziehung bestimmter Randbedingungen für die Positionen der Suchboxen. Damit können den Suchboxen bestimmte Bereiche zugeordnet werden, innerhalb welcher sie relativ zueinander plaziert werden können. Es ist z. B. sehr unwahrscheinlich, dass beide Augen des Fahrers übereinander liegen.

Eine besonders vorteilhafte Ausgestaltung der Augenverfolgung ist durch die Nutzbarmachung des Optischen Flusses gegeben, wodurch die Kopfbewegung aus den Bildsequenzen geschätzt werden kann und somit die Augenverfolgung auch dann korrekt durchführbar ist, wenn keine Augen gefunden wurden. Beim optischen Fluß handelt es sich um ein Verfahren, um aus zwei aufeinanderfolgenden Bildern die Verschiebung zweier ähnlicher Bildstrukturen zu finden. Mit dieser Verschiebung ist es möglich, die Bewegung einer Bildstruktur von einem zum nächsten Bild zu ermitteln. Mit Hilfe des optischen Flusses ist es nun möglich, eine einfache Augenverfolgung aufzubauen. Der optische Fluß alleine ist nicht genau genug, um die Suchboxen zu plazieren. Er kann aber dafür benutzt werden, die nächste Position der Suchboxen zu schätzen. Für die Beschreibung des Algorithmus ist es sinnvoll, den optischen Verschiebungsvektor h(n, n + 1) zu definieren. Er bezeichnet den optischen Fluß, der aus den Bildern n und n + 1 berechnet wurde. Es gelten die gleichen Bezeichnungen, wie sie schon bei der linearen Schätzung der Suchboxposition verwendet wurden, d. h. die Suchboxpositionen werden wieder mit X (i)|n bezeichnet. Für die Position eines detektierten Auges wird ebenfalls wieder die Bezeichnung mⁱ benutzt. Bei diesem Verfahren werden ebenfalls beide Suchboxen unabhängig voneinander betrachtet. Daraus ergeben sich für jede Suchbox nur zwei Fälle, die berücksichtigt werden müssen:

- Fall 1: In der Suchbox i wurde ein Auge gefunden.
In diesem Fall kann die Suchboxen direkt über das Augen mit der Positionen mⁱ plaziert werden. Um eine Bewegung des Kopfes mit zu berücksichtigen, wird der Verschiebungsvektor des optischen Flusses ebenfalls zu den neuen Koordinaten addiert. Es ergibt sich für die neue Suchboxposition X (i)|n+1:
Entscheidend bei der Plazierung der Suchboxen ist, dass der optische Verschiebungsvektor aus dem aktuellen Bild und dem nächsten Bild zu berechnen ist. Damit kann die Suchbox schon für das nächste Bild möglichst optimal gesetzt werden
- Fall 2: In der Suchbox i wurde kein Auge gefunden.
In diesem Fall konnte bei der linearen keine Schätzung der nächsten Position vorgenommen werden. Da aber die Bewegung des Kopfes mit Hilfe des optischen Flusses ermittelt wurde, kann bei diesem Verfahren trotzdem eine unter Umständen hinreichend genaue Schätzung der Suchboxposition in Bild n + 1 vorgenommen werden. Es wird hierbei nur der optische Verschiebungsvektor h (n, n + 1) benutzt, d. h.:

In gewinnbringender Weise wird bei der Durchführung des erfindungsgemäßen Verfahrens die Suchboxposition zu Beginn automatisch mittels eines Algorithmus auf Grundlage des Hyperpermutations-Netzwerkes HPN (Mandler, Oberlõnder [19]) initialisiert. Bei einem HPN wird versucht aus der Verschiedenheit von Daten, die Redundanz und die Information zu trennen. In jedem Bild ist, abhängig vom erwünschten Ergebnis, viel Redundanz enthalten. Beispielsweise ist bei der Augendetektion nur die Information "an der Stelle (x, y) ist ein Auge" von Interesse. Dies ist nur ein Bruchteil der Information die das gesamte Bild enthält. Dazu wird das HPN ähnlich wie Neuronale Netzwerke aufgebaut, nur dass deren Knoten bzw. Neuronen eine andere Beschaffenheit besitzen. Beim HPN besitzen diese Knoten die gleiche Anzahl an Ein- und Ausgängen. Des weiteren entspricht eine Leitung genau einer Informationseinheit (Bit). Die Eingänge werden durch Permutationen auf den Ausgang abgebildet, wobei diese Abbildung umkehrbar ist. Durch das Zusammenschalten mehrerer Knoten ist es nun möglich, das Problem der Augendetektion zu lösen. Das HPN erstellt nach Eingabe eines Bildes eine Wahrscheinlichkeitsverteilung der Augen im Bild. Es existieren dabei mehrere Stufen. An der höchsten Stufe ist die Wahrscheinlichkeit an dieser Stelle ein Auge zu finden am höchsten. In der Praxis entspricht dies einer Art "Wahrscheinlichkeitswolken" um den Augenbereich. Werden von der höchsten Stufe Umrandungsboxen ermittelt, so können diese als Positionen für die Suchboxen verwendet werden.

In einer alternativen Ausführungsform des erfindungsgemäßen Verfahrens ist es denkbar Kalman-Filter für die Aufgabe der Initialisierung der Position der Suchboxen anzupassen. Hierdurch kann sodann die Augenverfolgung dynamischer gestaltet werden, d. h. die Stellung der Augen zueinander und die Suchboxgröße adaptiv gehandhabt werden. Bei diesem Verfahren muss ein komplettes Modell der Kopfbewegung entwickelt werden, das die Bewegung des Kopfes im dreidimensionalen Raum und die Abbildungseigenschaften der Kamera berücksichtigt. Ein solches Verfahren arbeitet hierbei mit statistischen Methoden, mit denen ebenfalls eine dynamische Anpassung der Suchboxgröße möglich ist.

Ebenfalls ist es denkbar die Initialisierung der Suchboxen durch das allgemein bekannte Verfahren des Template Matching vorzunehmen.

Die oben beschriebene erfindungsgemäße Vorrichtung zur Detektion von Augen in Bilddaten und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft als Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu verwenden. Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das Verfahren als generelle Elemente in verschiedenartigsten Anwendungen in denen Augen in Bilddaten zu erkennen sind anzuwenden. So zum Beispiel auch bei Verfahren zur Identifikation von Personen durch die Erkennung der Struktur der Augeniris, bei welcher die Blickrichtung der zu identifizierenden Person durch das System bereits vorgegeben wird.

Der Vorrichtung zur Detektion der Augen nachgeschaltet, findet sich innerhalb des Systems zur Blickrichtungsdetektion die eigentliche Vorrichtung zur Bestimmung der Blickrichtung.

Das erfindungsgemäße zum Betrieb der Vorrichtung zur Bestimmung der Blickrichtung geeignete Verfahren erlaubt es im Gegensatz zu den aus dem Stand der Technik bekannten Verfahren die Blickrichtung einer beobachteten Person auch dann zu ermitteln, wenn nicht mehr beide Augen sichtbar sind. Das Verfahren reicht sogar soweit, daß eine grobe Schätzung der Blickrichtung bereits ohne Augenerkennung möglich wird. Hierzu greift das erfindungsgemäße Verfahren auf die Bildinformation, welche von der Nase der beobachteten Person geliefert wird zurück. In vorteilhafter Weise wird die Position der Nase durch die Suche nach den Nasenlöchern mittels eines polaren Kantendetektors, entsprechend dem zur Anwendung bei der Augendetektion beschriebenen, detektiert. Der Vorteil gegenüber der Suche nach der Iris der Augen liegt in dem gute Kontrast zwischen Nasenlöchern und Umgebung gegeben, so dass der Umstand, dass Nasenlöcher nicht Kreisförmig sind relativ unwichtig wird. Die Verfolgung der Nasenlöcher wird, sodann entsprechend der oben beschriebenen Augenverfolgung vorgenommen (beispielsweise Optischer Fluß oder Kalman-Filter). Auf Grundlage der Position der erkannten Nasenlöcher wird aus dem Bild der beobachteten Person ein Datenbereich ausgewählt, welcher basierend auf Erfahrungswerte groß genug gewählt wird damit das Bild der gesamten Nase im Datenbereich enthalten ist. Als Richtwert kann ein erkanntes Nasenloch, bzw. das arithmetische Mittel aus den beiden Positionen zweier Nasenlöcher als Zentrum für den Datenbereich liegen. Es ist aber auch denkbar den Datenbereich so zu wählen, daß die Positionen der Nasenlöcher bzw. des Nasenlochs im unteren Bereich zu liegen kommt.

Zur Erkennung der Blickrichtung wird nun in einem ersten Ansatz sowohl das Abbild der Nase als auch das der Augen klassifiziert. Sind keine Bilder der Augen vorhanden, so kann bereits durch die Ausrichtung der Nase grob die Blickrichtung geschätzt werden. Kann zudem die Blickrichtung der Augen korrekt klassifiziert werden, so ist aus der Kombination der Blickrichtung der Augen und der Ausrichtung der Nase in Bezug auf die Kameraposition die Blickrichtung der beobachteten Person schätzbar.

Hierzu ist es denkbar einen gesonderten Klassifikator zu Klassifikation der Nasenausrichtung und einen gesonderten Klassifikator zur Klassifikation der Blickrichtung der Augen zu verwenden. In vorteilhafter Weise ist es jedoch auch denkbar die Bilddaten der Augen und der Nase zu einem zu kombinieren und diese gemeinsam einem geeignet trainierten Klassifikator zur Bestimmung der Blickrichtung zur Verfügung zu stellen.

Die oben beschriebene erfindungsgemäße Vorrichtung zur Bestimmung der Blickrichtung und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft als Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu verwenden. Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das Verfahren als generelle Elemente in verschiedenartigsten Anwendungen in denen die Blickrichtung beobachteter Personen aus Bilddaten erkannt werden soll anzuwenden.

Literaturverzeichnis

[1] K. F. Arrington, Arrington Research, November 1997, www.arringtonresearch.com/viewPoint.html
[3] S. Baluja, D. Pomerleau, Non-Intrusive Gaze Tracking Using Artificial Neural Netwoorks, Technical Report CMU-CS-94-102, Carnegie Mellon University, 1994
[6] A. Gee, R. Cipolla, Non-intrusive Gaze Tracking for Human-Computer Interaction, Proceedings on Mechatronics and Machine Vision in Practice, pp. 112-117, Toowoomba, Australia 1994
[7] G. Chow, X. Li, Towards a System for Automatic Facial Feature Detection, Pattern Recognition Vol. 26, No. 12, pp. 1739-1755, 1993
[8] Y. Ebiswana, Unconstrained Pupil Detection Technique using Two Light Sources and the Image Difference Mathod, Visualization and intelligent Design in Engineering and Architecture II/ed. by S. Hernandez. - Southhampton: Computational Mechanical Publications, 1995
[9] G. J. Edwards, A. Lanitis, C. J. Taylor, T. F. Cootes, Statistical Models of Face Images- Improving Specificity, Image and Vision Computing 1b, 1998, pp. 203-211
[16] K.-M. Lam, H. Yan, Locating and Extracting the Eye in Human Face Images, Pattern Recognition, Vol. 29, No. 5, pp. 771-779, 1996
[17] C. Motrimoto, D. Koons, A. Amir, M. Flicker, Pupil Detection and Tracking Using Multiple Light Sources, Image and Vision Computing, Vol. 18, No. 4, March 2000, Elsevier, Netherlands
[19] M. Oberländer, Hyperpermutation Networks - A Discrete Approach to Machine Perception, 3rd Workshop an Weightless Neural Networks, York, 30th March 1999
[20] C. H. Morimoto, Real-Time Multiple Face Detection Using Active Illumination, Proceedings of the fourth international Conference an automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[26] R. Stiefelhagen, J. Yang, A. Waibel, Tracking Eyes and Monitoring Eye Gaze, Proceedings of Perceptual User Interfaces (PUI'97) Banif, Alberta, Canada 1997 (werner.ira.uka.de/iSL.publications.html)
[28] Y.-L. Tian, T. Kanade, J. F. Cohn, Dual State Parametric Eye Tracking, Proceedings of the 4th International Conference an Automatix Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[30] L.-Q. Xu, D. Machin, P. Sheppard, A Novel Approach to Real-tine Non-intrusive Gaze Finding, Proceedings of the British Vision Conference, University Southhampton, 14-17 September 1998
[31] X. Xie, R. Sudhakar, H. Zhuang, On Improving Eye Feature Extraction Using Deformable Templates, Pattern Recognition, Vol. 27, No.6, pp. 791-799, 1994
[33] M. Zobel, A. Gebhard, D. Paulus, J. Denzler, H. Niemann, Robust Facial Feature Localization by Coupled Features, Proceedings of the fourth International Conference an Automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France

Claims

1. System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten, bestehend aus einer Vorrichtung zur Detektion der Augen und einer nachgeschalteten Einheit zur Bestimmung der Blickrichtung der beobachteten Person,
dadurch gekennzeichnet,
daß die Vorrichtung zur Detektion der Augen eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt,
und daß die Vorrichtung zur Bestimmung der Blickrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist.

2. Vorrichtung zur Detektion von Augen,
dadurch gekennzeichnet,
dass die Vorrichtung eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt.

3. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass im Rahmen der Radienanpassung, der Bereich in welcher die Vorrichtung zur Kreisdetektion nach Kreisen suchen auf einen minimalen Bereich r_min und einen maximalen Bereich r_max beschränkt wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Beschränkung des Bereichs von Bild zu Bild adaptiv angepaßt wird, wobei als Referenzwert der Radius r des Kreises benutzt, welcher eine im Bild zuvor detektierte Iris umschreibt, und auf dieser Grundlage die neuen Werte von r_min und r_max auf wenige Bildpixel (Bildauflösungen) weniger beziehungsweise mehr als r festgelegt werden,
wobei die Werte von r_min und r_max gewisse absolute Grenzen nicht unter- bzw. überschreiten dürfen.

5. Verfahren nach einem der Ansprüche Anspruch 3 bis 4, dadurch gekennzeichnet, dass in einem Bild kein Auge detektiert wurde, für die Auswertung des nachfolgenden Bildes die Werte von r_min und r_max unverändert herangezogen werden.

6. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines kanten orientierten Detektionsverfahrens, insbesondere der Hough-Transformation arbeitet.

7. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines Verfahrens der polaren Kantendetektion arbeitet.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion, nicht nur Kreise sondern auch andere, beliebig vordefinierbare Bahnen detektieren kann.

9. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass der der Vorrichtung zur Kreisdetektion nachgeordnete Klassifikator auf Grundlage der ihm gelieferten Daten selektierte Bildbereiche klassifiziert um festzustellen, ob es sich bei diesen Bereichen um die Abbildung eines Auges handelt.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Klassifikator in einem Schritt eine komplette Liste aller innerhalb einer Suchbox durch die Vorrichtung zur Kreisdetektion selektieren Bereiche klassifiziert.

11. Verfahren nach einem der Ansprüche 6 bis 9, dadurch gekennzeichnet, dass der Klassifikator synchron, im Wechsel mit der Vorrichtung zur Kreisdetektion arbeitet,
dass nach jeder einzelnen erfolgreicher Kreisdetektion eine Klassifikation des so selektierten Bereiches zur Feststellung ob es sich hierbei um die Abbildung eines Auges handelt durchgeführt wird,
und dass eines der Abbruchkriterien dieses Prozesses der Kreisdetektion ein durch den Klassifikator erkanntes Auge dient.

12. Verfahren nach einem der Ansprüche Anspruch 3 bis 11, dadurch gekennzeichnet, dass der Klassifikator in der Lage ist, zu erkennen ob ein Auge geschlossen oder geöffnet ist.

13. Verfahren nach einem der Ansprüche 3 bis 12, dadurch gekennzeichnet, dass für den Fall, dass der Klassifikator für eine Zeitdauer, welche signifikant länger als die Dauer eines Lidschlages fortwährt, einen zur Einschlafwarnung geeigneten Mechanismus auslöst und/oder notwendige Maßnahmen zur Verhinderung von Unfällen ergreift.

14. Verfahren nach einem der Ansprüche Anspruch 3 bis 13, dadurch gekennzeichnet, dass der Bereich, in welchem die Vorrichtung zur Detektion von Augen im Bild sucht, durch eine sogenannte Suchboxen eingeschränkt wird, welche gleich oder kleiner als der gesamte Bildbereich ist.

15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu Beginn des Verfahrens mit Hilfe eines pixel-orientierten Klassifikators initialisiert werden.

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass der pixel-orientierte Klassifikator ein Hyperpermutationsnetzwerke ist.

17. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu Beginn des Verfahrens mit Hilfe von Template-Matching initialisiert werden.

18. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein Verfahren auf Basis des optischen Flusses angewandt wird.

19. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein auf dieses Problem angepasster Kalman-Filter angewandt wird.

20. Verfahren nach einem der Ansprüche 14 bis 19, dadurch gekennzeichnet, dass bei der Suche nach Kreisen innerhalb einer Suchbox in der Mitte der Suchbox begonnen wird und die weitere Ausdehnung des Suchbereichs von dort ausgehend einen spiralförmigen Weg beschreibt.

21. Vorrichtung zur Kreisdetektion dadurch gekennzeichnet, dass die Vorrichtung auf der Basis eines polaren kanten-orientierten Algorithmus realisiert ist, welcher nicht nur Kreise sondern auch andere, beliebig vordefinierbare Bahnen detektieren kann.

22. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 21, dadurch gekennzeichnet, dass zur Berücksichtigung der Verdeckung der Iris durch die Augenlider, zwei Winkel α und β definiert werden, welche die Öffnungswinkel beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht in die Kreisdetektion einbezogen werden, festlegen.

23. Verfahren nach einem der Ansprüche 21 oder 22, dadurch gekennzeichnet, dass bei der Auswertung der Wegintegrale der Kreisbahnen die Varianz der Helligkeiten entlang der Bahn mit einbezogen wird.

24. Vorrichtung zur Bestimmung der Blickrichtung, dadurch gekennzeichnet, dass die Vorrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist, welcher als Klassifikationsergebnis die Blickrichtung einer beobachteten Person liefert.

25. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 24, dadurch gekennzeichnet, dass die Einrichtung zur Segmentierung der der Nase der beobachteten Person zugehörigen Bilddaten die Auswahl ausgehend von einem detektierten Nasenloch trifft.

26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass die Detektion eines Nasenlochs mittels eines polaren Kantendetektor mit nachgeschaltetem Klassifikator erfolgt.

27. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein gesonderter Klassifikator zur Klassifikation der Nasenausrichtung und ein gesonderter Klassifikator zur Klassifikation der Blickrichtung der Augen verwendet wird.

28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass für den Fall, daß kein Auge erkannt wurde, der Klassifikator zur Klassifikation der Nasenausrichtung eine Schätzung der Blickrichtung durchführt.

29. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein gemeinsamer Klassifikator die kombinierten Bilddaten der Augen und der Nase klassifiziert um die Blickrichtung einer beobachteten Person zu schätzen.