DE10046859A1 - System zur Blickrichtungsdetektion aus Bilddaten - Google Patents
System zur Blickrichtungsdetektion aus BilddatenInfo
- Publication number
- DE10046859A1 DE10046859A1 DE10046859A DE10046859A DE10046859A1 DE 10046859 A1 DE10046859 A1 DE 10046859A1 DE 10046859 A DE10046859 A DE 10046859A DE 10046859 A DE10046859 A DE 10046859A DE 10046859 A1 DE10046859 A1 DE 10046859A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- classifier
- eyes
- circle
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Die Augendetektion spielt bei einem System zur Blickrichtungserkennung eine große Rolle. In den Augen ist die meiste Information über die Blickrichtung enthalten. Allein aus der Stellung der Augen ist es möglich, eine ungefähre Angabe über die Blickrichtung zu machen. Allerdings darf der Kopf dabei nicht bewegt werden. Um die Blickrichtung auch bei erlaubter Kopfbewegung zu detektieren, müssen weitere Gesichtsmerkmale hinzugezogen werden. Dazu gehören die Nase, der Mund und eventell sogar die Augenbrauen. Damit wird möglich, auch die Kopfstellung der Person zu ermitteln. DOLLAR A In diesem Umfeld wird ein neuartiges System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten, bestehend aus einer Vorrichtung zur Detektion der Augen und einer nachgeschalteten Einheit zur Bestimmung der Blickrichtung der beobachteten Person, beschrieben. Dabei zeichnet sich das System durch eine erfinderische Vorrichtung zur Augendetektion aus, welche eine Einheit zur Radienanpassung enthält, an welche sich eine erfinderische Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt. Des weiteren wird eine neuartige Vorrichtung zur Bestimmung der Blickrichtung beschrieben, welche Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist.
Description
Die Erfindung betrifft ein System zur Blickrichtungserkennung einer beobachteten
Person aus Bilddaten nach dem Oberbegriff von Anspruch 1, sowie für dieses System
geeignete Vorrichtungen und Verfahren zum Betrieb dieser Vorrichtungen nach den
Oberbegriffen der Ansprüche 2, 21 und 24, sowie 3, 22 und 25.
Die Augendetektion spielt bei einem System zur Blickrichtungserkennung eine große
Rolle. In den Augen ist die meiste Information über die Blickrichtung enthalten. Allein
aus der Stellung der Augen ist es möglich, eine ungefähre Angabe über die
Blickrichtung zu machen. Allerdings darf der Kopf dabei nicht bewegt werden. Um die
Blickrichtung auch bei erlaubter Kopfbewegung zu detektieren, müssen weitere
Gesichtsmerkmale hinzugezogen werden. Dazu gehören die Nase, der Mund und
eventuell sogar die Augenbrauen. Damit wird möglich auch die Kopfstellung der Person
zu ermitteln.
Ein Verfahren, um die Augen detektieren zu können, basiert auf der sogenannten Dif
ferenzenmethode mit zwei Lichtquellen (Morimoto [20], Morimoto et al. [17],
Ebiswana[8]). Bei dieser Methode wird die Person mit zwei Lichtquellen, meist LEDs
(Light Emitting Diodes), beleuchtet. Eine Lichtquelle ist dabei in der Achse der Pupille
und Kamera positioniert, so da das Licht direkt von der Netzhaut des Auges
zurückgeworfen wird. Die zweite Lichtquelle ist seitlich angeordnet, so da keine
Reflexionen der Netzhaut die Kamera erreichen. Es werden nun zwei Bilder mit je einer
aktiven Lichtquelle aufgenommen. Diese beiden Bilder sind bis auf die Reflexion der
ersten Lichtquelle auf der Netzhaut identisch. Durch die Bildung eines Differenzbildes
bleibt nur die Reflexion auf dem Ergebnisbild übrig. Es ist nun einfach diese Reflexion
aus dem Ergebnisbild mit Hilfe von Schwellwertverfahren zu extrahieren und somit die
Position der Augen zu bestimmen. Dieses Verfahren kann allerdings nicht bei
Bewegungen des Kopfes angewendet werden. Da das Differenzbild aus zwei im
zeitlichen Abstand aufgenommenen Bildern gebildet wird, kommen der Reflex der
Pupille sowie die dunkle Pupille nicht mehr zur Deckung. Des weiteren entstehen durch
die Bewegungen weiter Strukturen im Bild, die mit Hilfe der Schwellwertbildung nicht
mehr von dem Pupillenreflexunterschieden werden können. Diese Verfahren werden
üblicherweise dann eingesetzt, wenn die zu beobachtende Person den Kopf nicht
bewegen muss. Dazu zählen Gesichterkennungsaufgaben zur Identifikation von
Personen, wie sie z. B. bei Bankautomaten eingesetzt werden sollen, sowie zur
Bedienung von Computern mit den Augen.
Andere aus der Literatur bekannte Methoden sind die des Template Matching
(Schablonenanpassung) (Xie et al. [31], Chow et al. [7]). Hierzu wird ein geometrisches
Modell der Augen erstellt, welches adaptiv auf dem Bild angepasst wird. Der Nachteil
dieser Verfahren ist, dass das Template adaptiv angepasst werden muss. Des
weiteren neigen Templates dazu, die Augenbrauen anstatt der Augen zu detektieren.
Dies ist dann der Fall, wenn die Anfangsposition der Templates nicht sorgfältig
ausgewählt wurde (Xie et al. [31], Chow et al. [7]).
Die weitaus bekanntesten Verfahren zur Ermittlung der Augenpositionen sind
schwellwert- und kantenorientierte Verfahren. Diese Verfahren werden in vielen
wissenschaftlichen Veröffentlichungen zur Initialisierung der Ausgangsposition von
Templates benutzt (Xie et al. [31], Chowet al. [7]). Weitere Möglichkeiten zur
Initialisierung, sind Methoden zur Erkennung des Gesichtes. Hierbei wird mit Hilfe von
statistischen oder geometrischen Methoden versucht das Gesicht einer Person aus
Bildern zu extrahieren (Edwards et al. [9], Stiefelhagenet al. [26], Chow et al. [7], Zobel
et al. [33]). Damit ist der Bereich, in dem nach Augen gesucht werden muss, schon weit
eingeschränkt. Allen diesen Verfahren ist gemeinsam, da sie relativ langsam sind (Tian
et al. [28], Lam, Yan [16]). Allein das Template Matching ist ein aufwendiger Prozess.
Hinzu kommt die Ermittlung geeigneter Startpositionen für die Templates, welche mit
den obigen Verfahren ermittelt werden. Diese Verfahren sind aber in der Kombination
mit dem Template Matching ebenfalls langsam, da zwei Verfahren sequentiell benutzt
werden.
Um den Aufwand bei der Augendetektion zu minimieren ist es notwendig das
Gesamtbild ein oder zwei kleinere Suchbereiche zu unterteilen. Dazu werden zwei
Boxen verwendet, die jeweils in der Nähe eines Auges positioniert werden. Mit der
Verwendung dieser sogenannten Suchboxen ergeben sich zum einen
Geschwindigkeitsvorteile, da nicht mehr das gesamte Bild untersucht werden muss und
zum anderen wird die Fehlerrate reduziert, da der Iris ähnliche Objekte außerhalb der
Boxen, wie Knöpfe, Muster auf Hemden usw., nicht mehr gefunden werden. Damit wird
die eigentliche Entscheidung, ob es sich bei den gefundenen Kreisen um die Iris eines
Auges handelt vereinfacht.
Nachdem die Position der Augen bekannt ist, muss daraus die Blickrichtung abgeleitet
werden. Die Augen enthalten den größten Teil der Information über die Blickrichtung.
Diese Information alleine ist allerdings noch nicht ausreichend, wenn bei der
Blickrichtungsdetektion auch der Kopf bewegt werden darf. Viele Anwendungen gehen
von der Annahme aus, da der Kopf nicht bewegt wird, was auch oft ausreichend ist.
Dazu zählen Bankautomaten, bei denen die Identität über das Gesicht oder die
Netzhaut geprüft wird, sowie eine mit den Augen gesteuerte Computermaus. Wird die
Kopfbewegung nicht in Betracht gezogen, so ist die Information, die die Augen
enthalten, ausreichend, um damit die Blickrichtung zu erkennen. In Baluja, Pomerleau
[3] und Xu et al. [30] wird z. B. die Blickrichtungsdetektion allein mit den Augen mit
Hilfe eines neuronalen Netzwerkes ermittelt.
Ein anderes Verfahren zur Blickrichtungsdetektion benutzt geometrischen Verfahren
(Arrington [1]). Hierzu wird das Auge zusätzlich aktiv beleuchtet, so da ein Lichtreflex
auf dem Auge zu erkennen ist. Die Lichtquelle ist dabei direkt vor der Person installiert.
Ist die Position der Pupille sowie die Position des Lichtreflexes bekannt, so kann daraus
die Blickrichtung erkannt werden. Die Position des Lichtreflexes entspricht dem
Geradeausblick der Person. Mit Hilfe des Vektors zwischen Reflex und Pupille ist es nun
möglich, die Blickrichtung zu berechnen. Bei diesem Verfahren ist es allerdings nötig,
da hochauflösende Bilder von der Augenregion vorhanden sind.
Um die Blickrichtung auch bei Kopfbewegungen korrekt ermitteln zu können, ist es
nötig weitere Information bereitzustellen. Dazu gehören weitere Gesichtsmerkmale, wie
z. B. Nase und Mund. In Gee, Cipolla [6] ist ein Verfahren beschrieben, welches aus den
Positionen von den Augen und dem Mund die Blickrichtung detektiert. Dazu wird der
Mund durch eine Linie modelliert. Mit Hilfe dieser Linie und der Verbindungsstrecke
beider Augen, ist es nun möglich die Blickrichtung zu detektieren. Allerdings muss dazu
der Mund gefunden werden, was aufgrund der vielen möglichen Zustände des Mundes
nicht einfach ist. Bei der Blickrichtungsdetektion in einem Kraftfahrzeug sind aber unter
Umständen nicht beide Augen sichtbar. Bei extremer Verdrehung des Kopfes, z. B. bei
Blick über die Schulter, ist nur ein Auge sichtbar und damit auch nur die Position eines
Auges vorhanden.
Aufgabe der Erfindung ist es ein neuartiges, insbesondere für die Verwendung in einem
Kraftfahrzeug geeignetes System zur Blickrichtungsdetektion einer beobachteten
Person aus Bilddaten zu finden. Des weiteren sollen zur Inkorporation in dieses System
geeignete Vorrichtungen und Verfahren zum Betrieb dieser Vorrichtungen gefunden
werden.
Die Aufgabe wird durch die Merkmale des in Anspruch 1 beschriebenen Systems
gelöst. Die für dieses System geeigneten Vorrichtung und die zu deren Betrieb
geeigneten Verfahren sind durch die Merkmale der Ansprüche 2, 21 und 24, sowie
3, 22 und 25 dargelegt. Vorteilhafte Ausgestaltungen und Weiterbildungen der
Erfindung sind durch die Merkmale der untergeordneten Ansprüche beschrieben.
In erfinderischer Weise lässt sich das System zur Detektion der Blickrichtung in zwei
Bereiche einteilen:
- - Der erste Bereich beinhaltet eine Vorrichtung zur Detektion der Augen.
- - Der zweite Bereich beinhaltet, dem ersten Bereich nachgeschaltet, eine Vorrichtung zur Bestimmung der Blickrichtung.
Dabei gliedert sich die Prozesskette innerhalb der Vorrichtung zur Detektion der Augen
im wesentlichen in drei Stufen:
- - Die erste Stufe wird durch Einheit zur Radienanpassung gebildet. Im Rahmen dieser Radienanpassung wird der Bereich, der zur Suche nach den Kreisen benutzt wird, auf rmin und rmax beschränkt, d. h. es werden keine Kreise mit kleineren bzw. größeren Radien detektiert; der Radius der Iris ist in den Bildern auf diesen Bereich beschränkt. Als untere Schranke rmin wird vorzugsweise auf einen so kleiner Wert festgelegt (z. B.: rmin = 3 Pixel), dass gerade noch Detektion der Iris bei halb geschlossenen Augen möglich ist. Werden diese Schranken rmin und rmax für die Radien nicht benutzt, so werden viele Fehlkreise zusätzlich zu der Iris der Augen detektiert. Wird z. B. die obere Schranke rmax zu hochgewählt, so werden viele kreis-ähnliche Strukturen detektiert, die nicht zu einer Iris gehören. Dazu gehören vor allem Schatten, die sich zwischen Nase und Augenbrauen erstrecken. Diese Schatten besitzen eine kreis-ähnliche Struktur mit großem Radius. Des weiteren werden Böge von Brillengestellen weitaus leichter detektiert, wenn große Radien zugelassen werden. Hinzu kommt, da bei zu großer Wahl der oberen Radiusgrenze der Kreisalgorithmus oft die Iris durch einen zu großen Kreis beschreibt. Es werden dann die Augenbrauen und das untere Lid als Grenzen des Kreises angesehen, da sich hier sehr hohe Kontrastübergänge befinden. Wird dagegen die unter Schranke des Radius zu klein gewählt, so werden viele kleine Kreise detektiert. Dazu Zählen kleine dunkel Objekte, die meistens nur aus vier bis 10 Bildpunkten bestehen. Da bei diesen kleinen Radien nicht mehr zwischen Kreisen und anderen Objekten in der Form unterschieden werden kann, werden so viele kleine Kreise detektiert. Dies kann mit der Beschränkung der Kreissuche auf einen kleinen Bereich zu einem großen Teil unterdrückt werden. Des weiteren verringert diese Einschränkung ebenfalls die Ausführgeschwindigkeit des Algorithmus, da nun weit weniger Kreisradien überprüft werden müssen.
Ideal wäre es aber, in einem noch kleineren Intervall von ca. 5 bis 6 Radien nach dem
erwünschten Kreis suchen zu lassen. Damit muss aber im voraus bekannt sein, wie
groß der Radius der Iris ist. Aus diesen Gründen verwendet das erfindungsgemäße
Verfahren vorzugsweise eine adaptive Radienanpassung, welche den Bereich der
Radien weiter einschränkt und auf jedes Bild neu adaptiert. Dazu werden die obere und
untere Schranke der Radien rmin und rmax bei jedem Bild neu eingestellt. Als
Referenzwert wird hierbei in vorzüglicher Weise der Radius r des Kreises benutzt,
welcher die Iris umschreibt. Auf dieser Basis werden die neuen Werte von rmin und
rmax aufwendige Bildpixel (Bildauflösungen) weniger beziehungsweise mehr als r
festgelegt (z. B.: rmin = r - 2 und rmax = r + 3).
Die neuen Bereiche für die Radien rmin und rmax dürfen dabei bestimmte absolute
Grenzen nicht unter- bzw. Überschreiten (z. B.: rmin < = 3 und rmax < = 12 Pixel). Sollte
in im Betrieb des Systems dennoch eine Grenzüberschreitung durch rmin und rmax
auftreten, so müssen rmin und rmax so korrigiert/begrenzt werden, dass innerhalb
dieser maximalen Schranken zu liegen kommen.
Die neue Wahl des Radienbereiches rmin und rmax wird vorzugsweise immer auf das
nachfolgende Bild angewandt. Da sich die Größe der Iris von Bild zu Bild jedoch nicht
allzu sehr verändert, ist der aus diesem Vorgehen resultierende Fehler
vernachlässigbar. Wird in einem Bild kein Auge detektiert, so ist es vorteilhaft, die
Werte rmin und rmax unverändert zu belassen und so bei der Bearbeitung des
nachfolgenden Bildes anzuwenden.
- - Die zweite Stufe der Prozesskette innerhalb der Vorrichtung zur Detektion der Augen beinhaltet eine Vorrichtung zur Kreisdetektion. Beispielsweise ist es denkbar hierzu die Hough-Transformation heranzuziehen. Nach der Erzeugung der Schnittpunkte bzw. der Häufungen von Schnittpunkten im Akkumulatorfeld, müssen daraus die Mittelpunkte und Radien der Kreise extrahiert werden. Zur Bestimmung des Kreismittelpunktes wird vorzugsweise ein Schwellwertverfahren eingesetzt, welches die Häufungen im Akkumulatorfeld isoliert. Ein für das System zur Blickrichtungsdetektion geeignetes Verfahren bestimmt den Schwellwert aus einem Histogramm. Dabei wird aus der Helligkeitsverteilung im Akkumulatorfeld ein Histogramm berechnet, welches die Verteilung der Helligkeiten enthält. Beispielsweise wird das Histogramm mit histo[i] mit 0 < = i < = 255 bezeichnet. Es kann hierbei als Vektor der Länge 256 angesehen werden. Das Histogramm enthält dabei 256 Einträge von 0 bis 255, da das beispielhaft verwendete Bildformat 256 Graustufen besitzt.
Es werden sodann die N hellsten Punkte gesucht, beginnend mit den Punkten die der
größten Helligkeitsstufe (hier: 255) zuzuordnen sind. Sind sodann N Punkte selektiert,
dient der Helligkeitswert des N Punktes sodann als Schwellwert für das weitere
Verfahren. In der Folge werden im Akkumulator alle Punkte deren Helligkeitswert
unterhalb dieser Schwelle liegen unterdrückt. Die anderen Punkte werden mit ihrer
dazugehörigen Helligkeit belassen. Im Akkumulatorfeld bilden sich nach dem
Schwellwertverfahren Inseln, welche den Bereich eines möglichen Mittelpunktes eines
Kreises angeben. Aus diesem Schwellwertbild müssen sodann Objekte extrahiert
werden. Dazu wird Algorithmus der auf Grauwertbildern arbeitet benutzt; ein
sogenannter Color Connected Components Algorithmus (Farblich
Verbundene Komponenten) kurz CCC genannt. In den mit Hilfe von CCC kodierten
Objekten, werden die Mittelpunkte von Kreisen auf Grundlage einer Berechnung der
Schwerpunkte in jedem dieser Objekte bestimmt. Somit sind die Mittelpunkte der
Kreise bekannt und es müssen nachfolgend die zugehörigen Radien bestimmt werden.
Vorzugsweise wird zur Bestimmung der Kreisradien wird der zuvor berechnete
Schwerpunkt benutzt. Dabei werden von ihm ausgehend Kreise mit den Radien
r = rmin, . . ., rmax berechnet und mit den Punkten aus dem Kantenbild verglichen.
Dabei werden alle Punkte, die auf dem entsprechenden Kreisradius r liegen und deren
Normale in diesem Punkt, bis auf eine Toleranz, in Richtung Kreismittelpunkt zeigen
gezählt. Die Anzahl der Treffer werden anschließend normiert, d. h. durch die Anzahl der
maximalen Punkte dieses Radius geteilt. Somit wird eine Größe des Kreises erzeugt,
welche die Anzahl der Treffer zu diesem Kreis mit diesem Radius wiedergibt,
d. h. Güte = Anzahl_der_Treffer/(2πr). Vorzugsweise wird der Kreis mit der besten
Güte beibehalten, wogegen die anderen verworfen werden.
Um Ungenauigkeiten der Hough-Transformation, die bei der Diskretisierung des
Akkumulatorfeldes und der Diskretisierung der Gradienten entstehen, zu korrigieren,
wird vorzugsweise nicht nur der Schwerpunkt der CCC codierten Objekte nach Kreisen
untersucht, sondern auch eine Umgebung um diesen; als vorteilhaft erweist sich ein
5 × 5 Bildpixel großer Umgebungsbereich. Aus den aus dieser Umgebung bestimmten
Kreisen wird wiederum der beste behalten. Dieser Kreis bestimmt sodann den
eigentlichen Mittelpunkt.
In besonders Vorteilhafter Weise ist es auch denkbar im Rahmen der Erfindung an
Stelle eines Schwellwert basierten Verfahrens zur Augendetektion ein kanten
orientiertes Verfahren zu verwenden, welches auf Grundlage der polaren
Kantendetektion arbeitet. Der Vorteil der kanten-orientierten Verfahren gegenüber dem
Schwellwertverfahren ist ihre Unempfindlichkeit gegenüber Lichtschwankungen sind,
da Differenzen betrachtet werden. Die Kantendetektoren beruhen im allgemeinen auf
dem kartesischen Koordinatensystem. Da aber bei der Augendetektion nach der Iris
gesucht wird, welche gut durch Kreise beschrieben werden kann, ist ein Verfahren von
Vorteil, welches diese polare Eigenschaft direkt nutzt. In Wilson [29] wird ein solches
Verfahren beschrieben. Es handelt sich dabei um einen polaren Kantendetektor, der
Gleichung 1 beschrieben wird:
Die zu untersuchende zweidimensionale Funktion wird mit l(x, y) bezeichnet, wobei
x und y die kartesischen Koordinaten dieser Funktion darstellen. Ausgehend von dieser
Funktion l(x, y) wird ein kreisförmiger Weg mit Radius r an der Position (x0, y0)
durchlaufen und die Intensitäten l(x, y) auf dieser Kreisbahn integriert und anschließend
mit dem Faktor 2πr normiert. Dieser Vorgang kann mit einer Mittelwertbildung entlang
der Kreisbahn verglichen werden. Die Integration entlang einer Kreisbahn wird nach
dem Radius r abgeleitet, womit der Gradient der verschiedenen Integrationen bei
verschiedenen Radien an der Position (x0, y0) gebildet wird. Mit Hilfe der
Maximumbildung wird der größte Gradient entlang des Radius r ermittelt. Dieser
Vorgang wiederholt sich für alle Punkte der Funktion l(x, y), so dass für jede Position (x, y)
ein maximaler Gradient gebildet wird. Dieses Verfahren gibt demnach für jeden
Punkt der Funktion l(x, y) eine Bewertung eines Kreises an der Stelle (x, y) und dessen
besten Radius r an. Es ist dabei irrelevant, ob es sich bei den untersuchten Positionen
tatsächlich um kreis-ähnliche Strukturen handelt. Je besser die Struktur an der Stelle
(x, y)einem Kreis ähnelt, desto höher ist die Bewertung.
Um die polare Kantendetektion in der Bildverarbeitung nutzen zu können, ist es nötig
Gleichung 1 zu diskretisieren, da die Bilddaten f(x, y) dem erfindungsgemäßen
Verfahren ebenfalls diskret vorliegen, und somit der diskretisierten Funktion l(x, y)
entsprechen. Aus diesem Grunde schlägt die Erfindung verwendet die Erfindung in
vorteilhafter Weise ein neuartiges, nachfolgend beschriebenes Konzept zur
Diskretisierung von Gleichung 1. In Fig. 1 ist die diskretisierte Vorgehensweise
schematisch abgebildet.
Fig. 1 zeigt den polaren Kantendetektor nach Diskretisierung der Variablen.
Für jeden Radius wird eine Kreisbahn beschrieben, auf welcher die
Intensitäten aufaddiert werden.
Der Kern des polaren Kantenoperators ist das Umlaufintegral, welches einen
kreisförmigen Weg mit Radius r an der Position (x0, y0) beschreibt. Diese Integration
muß bei der Verwendung von Bilddaten in eine Summation umgewandelt werden. Für
einen bestimmten Radius r ergibt sich dann für das Umlaufintegral der Wert µr zu:
Das Abrunden der Kreisfunktion ist nötig, da mit diskreten Bilddaten gearbeitet wird.
Aus diesem Grund sind alle Positionen (x, y) innerhalb eines Bildes durch ganze Zahlen
dargestellt. Das Gleiche gilt für den Radius r. Diese Summation entspricht der Bildung
eines Mittelwertes µr der Grauwertverteilung des Bildes entlang einer Kreisbahn mit
Radius r. Diese Mittelwertbildung kann mit Hilfe einer Funktion sr(i) = (sr,x(i), sr,y(i))┬,
welche einer parametrisierten Kurve entspricht, allgemeiner beschrieben werden:
Mit Hilfe der Funktion sr(i) können beliebige Wege beschrieben werden, entlang derer
ein Mittelwert berechnet wird.
In erfinderischer Weise wird nun vorzüglich die polare Kantendetektion dahingehend
verallgemeinert, daß sie neben den üblicherweise kreisförmigen Wege auch beliebig
anders gestaltete Wege detektieren kann. Die Grundidee hierbei ist der Wunsch auch
Augen mit Hilfe der Detektion der Iris zu finden. In den meisten Fällen wird aber die Iris
teilweise von den Augenlidern oben und unten verdeckt. Dabei ist die Verdeckung
durch die Augenlider oben stärker ausgeprägt als unten. Durch diese Verdeckung ist
die Iris kein perfekter Kreis mehr, sondern ein Kreis, der durch zwei Kreisbögen unten
und oben abgeschnitten ist. Aus diesem Grund ist es nötig, die Pfade zur Kreissuche so
anzupassen, dass diese Verdeckung mit in Betracht gezogen wird.
In Fig. 2 sind verschieden Wege dargestellt, womit die Verdeckung der Iris durch die
Augenlider kompensiert werden soll ((a) Kreis, (b) Ellipse,
(c) offener Kreis, (d) ergänzter Kreis, (e) Rechteck). Die dick eingezeichneten
Abschnitte sind diejenigen Positionen, die in die Mittelwertbildung mit einbezogen
wurden. Die dünn gezeichneten Abschnitte stellen Hilfslinien zur Orientierung dar.
Fig. 2 beschreibt verschiedene verwendete Wege bei der Mittelwertbildung.
In Abbildung a) von Fig. 2 ist der schon erwähnte Kreis dargestellt, welcher die
Verdeckung zwar nicht berücksichtigt, dafür aber die wenigsten zusätzlichen Parameter
besitzt. Die Verdeckung der Augenlider wird am Besten durch den Weg aus Abbildung
d) in Fig. 2 angenähert. Dabei wird der Kreis oben und unten aufgeschnitten. Die
entstehenden Lücken werden mit Hilfe zweier Strecken überbrückt. Die beiden Lücken
werden mit den Winkeln α und β beschrieben, welche die Öffnungswinkel,
beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht
die Kreisdetektion einbezogen werden, festlegen. Eine andere vorteilhafte Gestaltung
der Kreisbahn ist aus Abbildung c) ersichtlich. Die Ellipse aus Abbildung b) in Fig. 2
besitzt gegenüber den anderen Bahnen nur einen zusätzlichen Parameter, nämlich das
Verhältnis der beiden Hauptachsen der Ellipse. Da die Ausdehnung der Ellipsen in
beiden Richtungen unterschiedlich ist, werden bei verschiedenen Radien die gleichen
Punkte mehrmals mit in die Auswertung einbezogen: Dies ist auf die Diskretisierung
des Bildes zurückzuführen, da nur ganzzahlige Positionen zulässig sind. Dies stellt aber
bei der Auswertung keinen Nachteil dar. Die Abbildung e) in Fig. 2 ist ein Rechteck.
Das Rechteck stellt eine grobe Näherung von Abbildung d) dar, da viele Kreise relativ
klein sind und der Kreisbogen durch eine Gerade angenähert werden kann. Die in
Fig. 2 aufgezeigten Abbildungen stellen selbstverständlich nur Beispiele von
möglichen Bahnen, auf welche der polare Kantendetektor optimiert wird, dar. Es ist nun
denkbar das Erfindungsgemäße Verfahren dergestalt auszuführen, dass die für die
aktuellen Bilddaten optimale Kontur entsprechend den Beispielen aus Fig. 2
angewandt wird.
Ausgehend von Gleichung 1 des polaren Kantenoperators ist ersichtlich, dass nicht der
maximale Wert eines Wegintegrals gesucht wird, sondern die maximale Veränderung
zweier aufeinanderfolgender Wegintegrale. Dies ist auch sinnvoll, da nach dem größten
Übergang von Dunkel nach Hell gesucht wird. Die Iris des Auges ist in Bildern im
allgemeinen als schwarze Scheibe zu erkennen, wohingegen der Bereich um die Iris
sehr hell ist. Genau dieser Übergang von Dunkel nach Hell soll detektiert werden; da
dies den besten Kreisbahn liefert, der die Iris beschreibt. Die Ableitung nach dem
Radius r aus Gleichung 1 mit Differenzen realisiert werden. Damit ergibt sich als erste
Näherung folgender Ansatz:
Vr = µr - µr - 1 Gl.4
Vr stellt die Bewertung für einen Mittelwert mit Radius r dar. Um den besten Kreis zu
finden, ist es nötig das größte Vr zu finden. Es müssen deshalb für einen bestimmten
Bereich rmin bis rmax die Vr erzeugt und miteinander verglichen werden.
Die erste Näherung der Ableitung nach dem Radius ist wie in Gleichung 4 angegeben
anfällig auf Schwankungen zwischen den einzelnen Mittelwerten. Die Iris ist bei realen
Bedingungen keine exakte schwarze Scheibe, sondern besitzt
Helligkeitsschwankungen, die beispielsweise von Reflexionen herrühren. Diese
Schwankungen wirken sich negativ auf die Bewertung des Kreises bei Radius r auf,
wenn sie an der Kante der Kreisscheibe auftreten. Um diese Helligkeitsschwankungen
besser kompensieren zu können, ist es besonders vorteilhaft die Bewertung über
mehrere Mittelwerte zu bilden. Dies kann folgendermaßen dargestellt werden, wenn n
die Anzahl der Mittelwerte ist, die mit in die Bewertung einbezogen werden sollen:
Für die Bewertungsberechnung hat sich ein Wert von n = 2 als sehr zuverlässig
herausgestellt. Damit vereinfacht sich Gleichung 5 zu
Werte größer als zwei sind meist nicht sinnvoll, da dann die Bewertung im allgemeinen
schlechter wird. Dies ist besonders dann der Fall, wenn in der Iris Gebiete mit großer
Helligkeit auftreten. In diesem Fall ist der Mittelwert schon sehr groß, bevor überhaupt
der Rand der Iris betrachtet wurde. Der Sprung des Mittelwertes am Rand der Iris ist
dann nicht mehr so groß und dieser Kreis bekommt eine schlechte bzw. schwache
Bewertung bzw. der falsche Radius r wird ermittelt. Der Fall n = 2 stellt daher einen
Kompromiß zur Kompensation von solchen Schwankungen innerhalb der Iris dar.
Mit diesem Ansatz kann die Iris von Augen gut detektiert werden. Allerdings werden
auch kreis-ähnliche Strukturen detektiert, die keine Iris von einem Auge darstellen.
Dazu gehören vor allem Brillen und Augenbrauen. An Brillen sind sehr große Kontraste
vorhanden, die ebenfalls als Kreise detektiert werden, obwohl sie keiner kreis-ähnlichen
Struktur entsprechen. Da die Auswertung der Wegintegrale über Mittelwerte vollzogen
wird, ist bei diesen "Fehltreffern" die Differenz des Mittelwertes größer als bei der Iris,
die unter Umständen keinen so großen Kontrast besitzt. Um diese Fehltreffer zu
eliminieren, ist es besonders vorteilhaft in erfinderischer Weise die Auswertung der
Wegintegrale zu erweitern. Hierbei macht man sich die Erkenntnis zu nutze, dass der
entscheidende Unterschied von diesen Fehltreffern zu richtigen Kreisen in der
Uneinheitlichkeit der Helligkeitsverteilung entlang der Kreisbahnen liegt. Bei
Augenbrauen ist z. B. in senkrechter Richtung überhaupt kein Kontrast vorhanden.
Dafür ist aber der Kontrast oben und unten an der Augenbrauen sehr ausgeprägt. Aus
diesem Grund zieht das erfindungsgemäße Verfahren die Varianz der Helligkeiten
entlang der Kreisbahn mit in die Auswertung der Wegintegrale ein. Es wird somit nun
neben dem Mittelwert aus Gleichung 1 ebenfalls der quadratische Mittelwert µr2
berechnet, d. h.
Damit kann die Varianz mit Hilfe der direkten Beziehung zwischen Mittelwert und dem
quadratischen Mittelwert ermittelt werden.
Die Varianz des Umlaufintegrals wird nun gemäß Gleichung 9 mit in die Bewertung
einbezogen:
Die Varianz wird nicht wie der Mittelwert als Differenz in die Bewertung einbezogen,
sondern immer direkt mit dem jeweiligen Radius verrechnet. Das Problem der Varianz
ist, sie mit einem geeignetem Gewichtungsfaktor in die Bewertung mit aufzunehmen.
Hier hat sich ein Wert von c = 0.001 als ausreichend erwiesen. Dieser Wert darf nicht
zu klein gewählt werden, da dann der Effekt der Varianz ansonsten verschwindet. Wird
der Gewichtungsfaktor c zu groß gewählt, so werden auch kleine Ungleichmäßigkeiten
auf der Kreisbahn der Iris zu sehr gewertet und diese nicht mehr detektiert.
Der oben beschriebene erfindungsgemäße polaren Kantenoperator, entsprechend der
Gleichungen 1-9 läßt sich besonders vorteilhaft in dem System zur
Blickrichtungsdetektion und/oder Augendetektion verwenden. Selbstverständlich ist es
aber auch denkbar den polaren Kantenoperator auch in ähnlichen Systemen
gewinnbringend einzusetzen; beispielsweise bei Systemen zu Identifikation von
Personen durch Vergleich der Struktur der Iris (wie bei Geldautomaten und
Zugangskontrollen).
Der polare Kantenoperator gibt eine Bewertung für einen Kreis an jeder Stelle (x, y) des
Bildes zurück. Aus diesen Bewertungen muß entschieden werden, welcher dieser
Kreise für die Weiterverarbeitung genutzt werden soll. Ebenso wie bei den Verfahren
mit der Hough-Transformation werden die besten Kreise ausgewählt und dem nächsten
Verarbeitungsschritt übergeben. Dazu wird in einer denkbaren Ausgestaltung des
Verfahrens der gesamte Suchbereich mit Hilfe des polaren Kantenoperators
ausgewertet und anschließend sortiert, so daß die N besten Kreise an erster Stelle
einer Liste mit allen bewerteten Kreisen stehen. Der Suchbereich wird dazu Zeile für
Zeile durchlaufen und jeder Punkt ausgewertet. Am Ende einer Zeile wird diese nach
den N besten Kreisen sortiert und die nächste Zeile wird verarbeitet. Nach der
Verarbeitung dieser Zeile werden wieder die N besten Kreise aus der Liste
herausgenommen. Nach der letzten Zeile sind dann die N besten Kreise des gesamten
Suchbereichs in einer Liste sortiert vorhanden.
Eine andere besonders vorteilhafte Alternative zur Unterdrückung von unerwünschten
Nachbarkreisen, wird durch nachfolgenden Algorithmus beschrieben. Dabei wird
zunächst der beste Kreis aus der Liste aller Kreise herausgenommen. Der nächstbeste
Kreis muß nun einen bestimmten Abstand d zum vorherigen Kreis besitzen, bevor er
aus der Liste herausgenommen wird. Dies wird solange wiederholt, bis die N besten
Kreise extrahiert wurden. Durch dieses Verfahren wird die Wahrscheinlichkeit erhöht,
daß sich der gesuchte Kreis bei den N besten Kreisen befindet, falls dieser schwach
bewertet wurde.
Eine besonders erfinderische Alternative zur Unterdrückung von Nachbarkreisen stellt
ein Verfahren dar, welches nicht den gesamten Suchbereich auswerten muß. Ein
entsprechendes Verfahren ist in Fig. 3 beschrieben.
Fig. 3 zeigt einen spiralförmigen Pfad, der bei der Bewertung der einzelnen Positionen
innerhalb der Suchbox verwendet wird.
Im Rahmen dieses Verfahrens wird statt der zeilenweisen Auswertung des
Suchbereichs ein spiralförmiger Weg beschrieben. Dieser Weg ist in Fig. 3 dargestellt.
Begonnen wird mit der Suche in der Mitte des Suchbereichs (Suchbox). Ist die Mitte
der Suchbox nahe am Auge plaziert, so wird diese Position schon nach wenigen
Schritten erreicht. Ist das Auge eher am Rand der Suchbox plaziert, so muß nun
trotzdem die gesamte Suchbox untersucht werden. Da aber davon ausgegangen
werden kann, daß der Fahrer die meiste Zeit in die gleiche Richtung schaut, ist das
Plazieren der Box relativ einfach und das Auge befindet sich meistens in der Mitte der
Suchbox. Um bei heftigen Kopfbewegungen trotzdem die Suchbox über dem Auge zu
plazieren, müssen jedoch geeignete, nachfolgend beschriebene Algorithmen zur
Augenverfolgung benutzt werden, die die Suchbox immer korrekt plazieren.
Durch den spiralförmigen Weg, der bei der Bewertung der Kreise innerhalb der Suchbox
durchgeführt wird, ergeben sich bestimmte Anordnungen der Bewertungen entlang
dieses Pfades. Ist ein Bereich mit hohen Bewertungen nicht in der Mitte der Suchbox,
sondern etwas verschoben dazu, so wird bei jedem Umlauf der Spirale dieses
Bewertung übernommen. Da die Spirale annähernd kreisförmig ist, wiederholt sich
dieser Bereich mit der Periode der Spirale. Aus diesen Auswertungen sollen die Maxima
extrahiert werden, an denen sich mit hoher Wahrscheinlichkeit Kreise befinden. Mit
Maxima sind allerdings dabei nicht die Spitzen der einzelnen Bewertungsmaxima,
sondern die Maxima der Einhüllenden aller Bewertungsmaxima über den gesamten
bisherigen Umlauf gemeint.
Dazu wurde in erfinderischer Weise ein Algorithmus entworfen, der aus diesen
Anordnungen der Bewertungen nur die interessanten Maxima extrahiert. Da die Spirale
eine kreisähnliche Struktur besitzt, hat sie dementsprechend eine Periode. Diese
Periode kann dazu benutzt werden, die interessanten Maxima zu extrahieren. Zur
Verdeutlichung soll nachfolgend von einem Suchbereich (Suchbox) in der Größe von 75
× 45 Bildpunkten ausgegangen werden. Dies entspricht 3375 Punkten. Die einzelnen
Spitzen in den Anordnungen besitzen hierbei einen Abstand von ca. 80 bis 120
Punkten. Dieser Abstand müßte sich prinzipiell mit dem Radius der Spirale ändern. Es
zeigt sich aber, dass die Stellen mit den Maxima der Bewertungen meist über ein
kleines Gebiet ausgedehnt sind. Damit wirkt sich die Periode am Anfang der Spirale bei
kleinen Radien nicht sehr aus, so daß eine konstante Periode über den gesamten
Bereich angenommen werden kann.
Fig. 4 zeigt das Flußdiagramm des Algorithmus zur Maximumssuche entlang eines
spiralförmigen Pfades.
Der vorteilhafte, erfindungsgemäße Algorithmus läuft entsprechen Fig. 4 in folgenden
Schritten ab:
Zunächst wird ein Index auf den Beginn der Liste mit allen Bewertungen gesetzt. Dieser
Index wird mit index bezeichnet und ist zu Anfang mit index = 0 initialisiert. Des
weiteren werden zwei Variablen, welche das zuletzt gefundene Maximum lastvalue und
das im Moment zu suchende Maximum maxvalue bezeichnen definiert. Mit maxpos wird
die Position des zu suchenden Maximums bezeichnet und wird zu Beginn mit maxpos =
0 initialisiert. Die einzelnen Bewertungen sind in val[i] abgelegt, wobei i die Position
innerhalb dieser Liste ist. Da eine konstante Periode, d. h. ein konstanter Abstand
zwischen den einzelnen Spitzen angenommen werden kann, ist es nur nötig, bis zur
nächsten Spitze nach einem neuem Maximum zu suchen. Dazu ist ein Zähler
notwendig, welcher mit count bezeichnet wird. Die Entfernung der Spitzen wird in der
konstanten Variablen dist festgehalten, welche dem Algorithmus als Parameter
übergeben werden muß. Nun wird das nächste Maximum in einer Umgebung von dist
Punkten von der momentanen Position index gesucht. Dazu werden alle Werte
miteinander verglichen und der höchste Wert in maxvalue gespeichert. Wird ein Wert
höher als maxvalue gefunden, so werden erneut von der Position von maxvalue wieder
dist Punkte untersucht, bis kein neuer Wert größer als maxvalue erscheint. Ist dieser
Punkt erreicht, so wird maxvalue mit lastvalue verglichen. Ist maxvalue größer als
lastvalue, so wurde ein Maximum gefunden und es wird in einer Liste mit Maxima
abgelegt (store). Unabhängig von diesem Ausgang; wird nun lastvalue zu maxvalue
gesetzt, und die Suche von der Position von maxvalue plus einem Offset offset erneut
gestartet. Der Offset soll verhindern, daß Werte die dicht an dem Maximum liegen
erneut mit in die Auswertungen einbezogen werden, da der Abfall nach einem
Maximum erst nach wenigen Punkte auf einen sehr kleinen Wert zurückgeht. Da aber
Hauptmaxima gefunden werden sollen, ist es nötig diese Werte zu überspringen. Der
Wert offset muß dem Algorithmus ebenfalls als Parameter übergeben werden. Hat der
Zeiger index das Ende der Liste erreicht, so wird der Algorithmus abgebrochen. Durch
Einsatz eines Zählers, welche die Anzahl der bisher gefundenen Maxima zählt, kann
ebenfalls nach einer bestimmten Zahl von gefundenen Maxima abgebrochen werden.
Damit kann wieder die Forderung nach den N besten Kreisen erfüllt werden, nur daß es
sich nun um eine andere Sortierreihenfolge der Kreise handelt, von denen die ersten N
Kreise ermittelt wurden. Die Parameter dist und offset sind dem Algorithmus zur
Konfiguration zur Verfügung zu stellen. Zur Vereinfachung wurde auf das Zählen der
bisher gefunden Maxima in Fig. 4 verzichtet. Das Ziel dieser Suche des Maximums ist,
nicht alle Punkte der Suchbox untersuchen zu müssen, sondern nur einen Teil. Dazu ist
es aber notwendig zu wissen, welcher Kreis der gesuchte ist, d. h. eine Iris umschreibt.
Hier kommt ein nachfolgend beschriebener Klassifikator, welcher die Entscheidung
- "Auge" oder "nicht Auge" treffen kann, zum Einsatz. Wird während der Ausführung des
Algorithmus ein Maximum gefunden, so wird es dem Klassifikator übergeben, anstatt
es in der Liste der Maxima zu speichern. Handelt es sich bei dem gefundenen Kreis um
die Iris eines Auges, so wird der Algorithmus abgebrochen. Handelt es sich um kein
Auge, so muß der nächste Kreis gesucht werden, welcher dann wiederum mit Hilfe des
Klassifikators verifiziert wird. Dieser Vorgang wiederholt sich, bis alle Punkte in der
Suchbox untersucht wurden. Es ist sehr wohl aber auch denkbar, daß der Klassifikator
nicht in einer solchen Wechselwirkung mit der Kreisdetektion arbeitet, sondern nach
Detektion aller Kreise diese als Liste übergeben erhält und sodann alle Kreise zugleich
(zeitgleich oder in direkter Abfolge) klassifiziert.
- - Die dritte Stufe innerhalb der Augendetektion bildet ein Klassifikator, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt. Es ist bei der Konfiguration des Klassifikators sehr wohl denkbar nicht in nicht nur bezüglich einer Suche nach "Auge vorhanden" → ja/nein zu konfigurieren; sondern auch eine Klassifikation bezüglich eines geöffneten bzw. geschlossenen Auges vorzunehmen. Dies wiederum erlaubt in erfinderischer Weise eine Funktionalität eines Systems zu generieren, welches für den Fall, daß die Zeitdauer während welcher die Augen einer beobachteten Person geschlossen bleiben, signifikant länger als die Dauer eines Lidschlages fortwährt, einen zur Einschlafwarnung geeigneten Mechanismus auslöst und/oder notwendige Maßnahmen zur Verhinderung von Unfällen ergreift. Dies ist besonders bei der Beobachtung von Fahrzeuglenkern und Bedienpersonal von Maschinen von Vorteil.
Bezüglich der Art des Klassifikators stellt das erfindungsgemäße Verfahren zur
Augendetektion keine besonderen Ansprüche. Im allgemeinen wird ein lernender
Klassifikator verwendet, welchem in einer Trainingssequenz typische zu klassifizierende
Muster repräsentiert werden (Polynomklassifikator, Neuronale Netze). Entsprechen der
Anwendung ist es denkbar den Klassifikationsprozess so auszugestalten, daß jedes der
beiden Augen der beobachteten Person individuell klassifiziert wird, oder aber daß ein
Klassifikator so ausgelegt wird, daß er die Bilddaten beider Augen gemeinsam
klassifiziert. Entsprechend ist das Verfahren zur Augendetektion mit einem
gemeinsamen oder zwei individuellen, augen-spezifischen Suchbereichen (Suchboxen)
auszugestalten.
Die Blickrichtungserkennung hängt entscheidend von der Detektion der Äugen
innerhalb der Bilddaten ab, da diese einen großen Teil der Information über die
Blickrichtung des Fahrers enthalten. Deshalb ist die Suche nach den Augen ein
wichtiger Schritt. Zur Detektion der Augen werden vorzugsweise Suchboxen eingesetzt
welche kleiner als das Gesamtbild sind und somit das Auffinden der Augen
vereinfachen und erheblich beschleunigen. Im folgenden wird näher auf die
Verwendung von Suchboxen eingegangen. Im Anschluß werden erfindungsgemäße
Verfahren beschrieben welche die aus der Verwendung von Suchboxen resultierende
Nachteile ausgleichen.
Wie eingangs erwähnt sind die meisten vorveröffentlichten Verfahren zur
Blickrichtungsdetektion aufgrund ihrer Laufzeit für die Fahrerbeobachtung nicht
einsetzbar. Der Grund liegt unter anderem in der Anzahl der zu verarbeitenden
Bildpunkte. Die Bilder der Kamera sind in der PAL Norm aufgenommen worden. Dabei
werden immer zwei Halbbilder zu einem Bild zusammengefaßt, so dass sich eine
effektive Bildauflösung von horizontal 768 und vertikal 576 Bildpunkten ergibt.
Insgesamt müssen demnach 442368 Bildpunkte untersucht werden. Wird das gesamte
Bild zur Augendetektion benutzt, so ergibt sich ein weiterer Nachteil: In den Bildern
sind viele der Iris ähnliche Objekte enthalten, die ebenfalls von den Algorithmen der
Augendetektion durch Kreise beschrieben werden. Dadurch ist die Wahrscheinlichkeit
einer Fehlentscheidung durch den Klassifikator wesentlich höher. Aus diesem Grund ist
es vorteilhaft, das gesamte Bild in ein oder zwei kleinere Suchbereiche zu unterteilen
(zwei Suchbereiche wenn jedes Auge einzeln detektiert und klassifiziert werden soll; ein
Suchbereich wenn beide Augen gemeinsam detektiert und klassifiziert werden sollen).
Hierzu werden Boxen (Suchboxen) verwendet, die jeweils in der Nähe eines Auge
positioniert werden. Die Nachteile der Verwendung von Suchboxen ist dadurch
gegeben, dass diese immer in der Nähe der Augen plaziert sein müssen, damit die
Algorithmen der Kreisdetektion auch die Iris detektieren können. Ist innerhalb einer
Suchbox kein Auge vorhanden, so werden zwar trotzdem Kreise gefunden, diese
werden aber vom Klassifikator als "kein Auge vorhanden" klassifiziert.
In vorteilhafter Weise wird bei dem erfindungsgemäßen Verfahren das Plazieren der
Suchboxen wird mit einer Augenverfolgung realisiert. Vorzugsweise plaziert die
Augenverfolgung dabei die Suchboxen nach jedem Bild neu, so dass die Iris innerhalb
der Suchbox zu finden ist und die Algorithmen der Augendetektion diese finden
können. Ausgangspunkt für die Augenverfolgung ist die zuletzt gefundene
Augenposition. Mit Hilfe dieser Position wird nun versucht, die Suchbox im nächsten
Bild korrekt zu plazieren. Dazu müssen aber in den Suchboxen die Augen korrekt
erkannt werden.
In einer möglichen Ausführungsform der Augenverfolgung wird bei dem
erfindungsgemäßen Verfahren die Augenverfolgung mittels einer linearen Vorhersage
der Position der Suchboxen realisiert. Dabei wird davon ausgegangen, dass die
Bewegung des Kopfes eine konstante Geschwindigkeit besitzt. Beschleunigungen
werden demnach nicht berücksichtigt. Ist die Abtastrate der Bildsequenzen groß genug,
so besitzt diese Annahme nur einen kleinen Fehler. Die Position der Suchboxen für das
nächste Bild n+1 wird aus den beiden zuletzt gefundenen Positionen der Augen aus
dem aktuellen n und letztem n-1 Bild berechnet. Die Augenpositionen werden mit
m (i)|n = (m (i)|n, x, m (i)|ny) bezeichnet, wobei mit i das linke oder rechte Auge bezeichnet wird,
d. h. i∈ {links, rechts}. Die Suchboxposition wird mit x(i) beschrieben. Da bei diesem
Verfahren zur Augenverfolgung Augen aus mehreren Bildern betrachtet werden,
existieren verschiedene Zustandskombinationen der Augen. Die unterschiedlichen
Zustände entstehen, wenn die Augen als voneinander abhängig betrachtet werden.
Werden beide Augen unabhängig voneinander betrachtet, so reduziert sich der
Aufwand auf vier Zustände pro Auge. Hinzukommt, daß die Augen einen bestimmten
Augenabstand zueinander besitzen. Wird dies ebenfalls berücksichtigt, so müssen
wiederum alle sechzehn Zustände betrachtet werden, da sich die Augen zueinander
orientieren und dadurch die einzelnen Zustände ebenfalls berücksichtigt werden
müßten. Nachteil einer starren Kopplung beider Augen ist, daß teilweise dann keine
Augen gefunden werden, wenn der Kopf sehr zu einer Seite zeigt. In diesem Fall wird
ein Auge von der Nase verdeckt und kann nicht detektiert werden. Sind beide
Suchboxen mit einander gekoppelt, d. h. die Suchboxen orientieren sich zueinander, so
wird bei weiterer Drehung des Kopfes eine der Suchboxen aus dem Kopfbereich
hinausgeschoben und befindet sich nach zurückdrehen weiterhin außerhalb des
Kopfbereiches. Aus diesem Grund ist es denkbar und sinnvoll die Augen nicht starr zu
koppeln, sondern ebenfalls getrennt zu betrachten. Das Problem der Augenverfolgung
ist, dass die Kopfbewegung von einem dreidimensionalen Raum in einen
zweidimensionalen Darstellungsraum abgebildet wird. Damit ändert sich der Abstand
der Augen je nach Drehung des Kopfes auf dem Bild.
Die lineare Schätzung der Suchboxposition ist nur dann gültig, wenn die
Geschwindigkeit der Augen konstant ist. Bei plötzlichem Richtungswechsel kann die
Annahme der konstanten Geschwindigkeit nicht mehr eingehalten werden. Weitere
Probleme ergeben sich, wenn keine Augen gefunden wurden. Dies ist besonders dann
der Fall, wenn geschlossene Augen im Bild enthalten sind, da diese nicht direkt
detektiert werden können.
Um diese Probleme zu minimieren, bietet es sich in vorteilhafter Weise an
entsprechende Erweiterungen der linearen Augenverfolgung zu implementieren. Eine
Möglichkeit ist die bereits erwähnte Koppelung der Augen. Wird in einer der Suchboxen
kein Auge gefunden, dann kann die Position der Suchbox, in der ein Auge gefunden
wurde, im nächsten Bild mit dem obigen Verfahren gut geschätzt werden. Die andere
Suchbox, in der kein Auge detektiert wurde, wird nun relativ, entsprechend der alten
relativen Position im vorherigen Bild, zu der Suchbox mit dem detektierten Auge
plaziert. Eine weitere denkbare Möglichkeit der Ausgestaltung des erfindungsgemäßen
Verfahrens ist Einbeziehung bestimmter Randbedingungen für die Positionen der
Suchboxen. Damit können den Suchboxen bestimmte Bereiche zugeordnet werden,
innerhalb welcher sie relativ zueinander plaziert werden können. Es ist z. B. sehr
unwahrscheinlich, dass beide Augen des Fahrers übereinander liegen.
Eine besonders vorteilhafte Ausgestaltung der Augenverfolgung ist durch die
Nutzbarmachung des Optischen Flusses gegeben, wodurch die Kopfbewegung aus den
Bildsequenzen geschätzt werden kann und somit die Augenverfolgung auch dann
korrekt durchführbar ist, wenn keine Augen gefunden wurden. Beim optischen Fluß
handelt es sich um ein Verfahren, um aus zwei aufeinanderfolgenden Bildern die
Verschiebung zweier ähnlicher Bildstrukturen zu finden. Mit dieser Verschiebung ist es
möglich, die Bewegung einer Bildstruktur von einem zum nächsten Bild zu ermitteln.
Mit Hilfe des optischen Flusses ist es nun möglich, eine einfache Augenverfolgung
aufzubauen. Der optische Fluß alleine ist nicht genau genug, um die Suchboxen zu
plazieren. Er kann aber dafür benutzt werden, die nächste Position der Suchboxen zu
schätzen. Für die Beschreibung des Algorithmus ist es sinnvoll, den optischen
Verschiebungsvektor h(n, n + 1) zu definieren. Er bezeichnet den optischen Fluß, der aus
den Bildern n und n + 1 berechnet wurde. Es gelten die gleichen Bezeichnungen, wie sie
schon bei der linearen Schätzung der Suchboxposition verwendet wurden, d. h. die
Suchboxpositionen werden wieder mit X (i)|n bezeichnet. Für die Position eines
detektierten Auges wird ebenfalls wieder die Bezeichnung mi benutzt. Bei diesem
Verfahren werden ebenfalls beide Suchboxen unabhängig voneinander betrachtet.
Daraus ergeben sich für jede Suchbox nur zwei Fälle, die berücksichtigt werden
müssen:
- - Fall 1: In der Suchbox i wurde ein Auge gefunden.
In diesem Fall kann die Suchboxen direkt über das Augen mit der Positionen mi plaziert werden. Um eine Bewegung des Kopfes mit zu berücksichtigen, wird der Verschiebungsvektor des optischen Flusses ebenfalls zu den neuen Koordinaten addiert. Es ergibt sich für die neue Suchboxposition X (i)|n+1:
Entscheidend bei der Plazierung der Suchboxen ist, dass der optische Verschiebungsvektor aus dem aktuellen Bild und dem nächsten Bild zu berechnen ist. Damit kann die Suchbox schon für das nächste Bild möglichst optimal gesetzt werden - - Fall 2: In der Suchbox i wurde kein Auge gefunden.
In diesem Fall konnte bei der linearen keine Schätzung der nächsten Position vorgenommen werden. Da aber die Bewegung des Kopfes mit Hilfe des optischen Flusses ermittelt wurde, kann bei diesem Verfahren trotzdem eine unter Umständen hinreichend genaue Schätzung der Suchboxposition in Bild n + 1 vorgenommen werden. Es wird hierbei nur der optische Verschiebungsvektor h (n, n + 1) benutzt, d. h.:
In gewinnbringender Weise wird bei der Durchführung des erfindungsgemäßen
Verfahrens die Suchboxposition zu Beginn automatisch mittels eines Algorithmus auf
Grundlage des Hyperpermutations-Netzwerkes HPN (Mandler, Oberlõnder [19])
initialisiert. Bei einem HPN wird versucht aus der Verschiedenheit von Daten, die
Redundanz und die Information zu trennen. In jedem Bild ist, abhängig vom
erwünschten Ergebnis, viel Redundanz enthalten. Beispielsweise ist bei der
Augendetektion nur die Information "an der Stelle (x, y) ist ein Auge" von Interesse.
Dies ist nur ein Bruchteil der Information die das gesamte Bild enthält. Dazu wird das
HPN ähnlich wie Neuronale Netzwerke aufgebaut, nur dass deren Knoten bzw.
Neuronen eine andere Beschaffenheit besitzen. Beim HPN besitzen diese Knoten die
gleiche Anzahl an Ein- und Ausgängen. Des weiteren entspricht eine Leitung genau
einer Informationseinheit (Bit). Die Eingänge werden durch Permutationen auf den
Ausgang abgebildet, wobei diese Abbildung umkehrbar ist. Durch das
Zusammenschalten mehrerer Knoten ist es nun möglich, das Problem der
Augendetektion zu lösen. Das HPN erstellt nach Eingabe eines Bildes eine
Wahrscheinlichkeitsverteilung der Augen im Bild. Es existieren dabei mehrere Stufen.
An der höchsten Stufe ist die Wahrscheinlichkeit an dieser Stelle ein Auge zu finden am
höchsten. In der Praxis entspricht dies einer Art "Wahrscheinlichkeitswolken" um den
Augenbereich. Werden von der höchsten Stufe Umrandungsboxen ermittelt, so können
diese als Positionen für die Suchboxen verwendet werden.
In einer alternativen Ausführungsform des erfindungsgemäßen Verfahrens ist es
denkbar Kalman-Filter für die Aufgabe der Initialisierung der Position der Suchboxen
anzupassen. Hierdurch kann sodann die Augenverfolgung dynamischer gestaltet
werden, d. h. die Stellung der Augen zueinander und die Suchboxgröße adaptiv
gehandhabt werden. Bei diesem Verfahren muss ein komplettes Modell der
Kopfbewegung entwickelt werden, das die Bewegung des Kopfes im dreidimensionalen
Raum und die Abbildungseigenschaften der Kamera berücksichtigt. Ein solches
Verfahren arbeitet hierbei mit statistischen Methoden, mit denen ebenfalls eine
dynamische Anpassung der Suchboxgröße möglich ist.
Ebenfalls ist es denkbar die Initialisierung der Suchboxen durch das allgemein
bekannte Verfahren des Template Matching vorzunehmen.
Die oben beschriebene erfindungsgemäße Vorrichtung zur Detektion von Augen in
Bilddaten und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft als
Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu verwenden.
Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das Verfahren als
generelle Elemente in verschiedenartigsten Anwendungen in denen Augen in Bilddaten
zu erkennen sind anzuwenden. So zum Beispiel auch bei Verfahren zur Identifikation
von Personen durch die Erkennung der Struktur der Augeniris, bei welcher die
Blickrichtung der zu identifizierenden Person durch das System bereits vorgegeben
wird.
Der Vorrichtung zur Detektion der Augen nachgeschaltet, findet sich innerhalb des
Systems zur Blickrichtungsdetektion die eigentliche Vorrichtung zur Bestimmung der
Blickrichtung.
Das erfindungsgemäße zum Betrieb der Vorrichtung zur Bestimmung der Blickrichtung
geeignete Verfahren erlaubt es im Gegensatz zu den aus dem Stand der Technik
bekannten Verfahren die Blickrichtung einer beobachteten Person auch dann zu
ermitteln, wenn nicht mehr beide Augen sichtbar sind. Das Verfahren reicht sogar
soweit, daß eine grobe Schätzung der Blickrichtung bereits ohne Augenerkennung
möglich wird. Hierzu greift das erfindungsgemäße Verfahren auf die Bildinformation,
welche von der Nase der beobachteten Person geliefert wird zurück. In vorteilhafter
Weise wird die Position der Nase durch die Suche nach den Nasenlöchern mittels eines
polaren Kantendetektors, entsprechend dem zur Anwendung bei der Augendetektion
beschriebenen, detektiert. Der Vorteil gegenüber der Suche nach der Iris der Augen
liegt in dem gute Kontrast zwischen Nasenlöchern und Umgebung gegeben, so dass
der Umstand, dass Nasenlöcher nicht Kreisförmig sind relativ unwichtig wird. Die
Verfolgung der Nasenlöcher wird, sodann entsprechend der oben beschriebenen
Augenverfolgung vorgenommen (beispielsweise Optischer Fluß oder Kalman-Filter). Auf
Grundlage der Position der erkannten Nasenlöcher wird aus dem Bild der beobachteten
Person ein Datenbereich ausgewählt, welcher basierend auf Erfahrungswerte groß
genug gewählt wird damit das Bild der gesamten Nase im Datenbereich enthalten ist.
Als Richtwert kann ein erkanntes Nasenloch, bzw. das arithmetische Mittel aus den
beiden Positionen zweier Nasenlöcher als Zentrum für den Datenbereich liegen. Es ist
aber auch denkbar den Datenbereich so zu wählen, daß die Positionen der Nasenlöcher
bzw. des Nasenlochs im unteren Bereich zu liegen kommt.
Zur Erkennung der Blickrichtung wird nun in einem ersten Ansatz sowohl das Abbild der
Nase als auch das der Augen klassifiziert. Sind keine Bilder der Augen vorhanden, so
kann bereits durch die Ausrichtung der Nase grob die Blickrichtung geschätzt werden.
Kann zudem die Blickrichtung der Augen korrekt klassifiziert werden, so ist aus der
Kombination der Blickrichtung der Augen und der Ausrichtung der Nase in Bezug auf
die Kameraposition die Blickrichtung der beobachteten Person schätzbar.
Hierzu ist es denkbar einen gesonderten Klassifikator zu Klassifikation der
Nasenausrichtung und einen gesonderten Klassifikator zur Klassifikation der
Blickrichtung der Augen zu verwenden. In vorteilhafter Weise ist es jedoch auch
denkbar die Bilddaten der Augen und der Nase zu einem zu kombinieren und diese
gemeinsam einem geeignet trainierten Klassifikator zur Bestimmung der Blickrichtung
zur Verfügung zu stellen.
Die oben beschriebene erfindungsgemäße Vorrichtung zur Bestimmung der
Blickrichtung und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft
als Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu
verwenden. Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das
Verfahren als generelle Elemente in verschiedenartigsten Anwendungen in denen die
Blickrichtung beobachteter Personen aus Bilddaten erkannt werden soll anzuwenden.
[1] K. F. Arrington, Arrington Research, November 1997,
www.arringtonresearch.com/viewPoint.html
[3] S. Baluja, D. Pomerleau, Non-Intrusive Gaze Tracking Using Artificial Neural Netwoorks, Technical Report CMU-CS-94-102, Carnegie Mellon University, 1994
[6] A. Gee, R. Cipolla, Non-intrusive Gaze Tracking for Human-Computer Interaction, Proceedings on Mechatronics and Machine Vision in Practice, pp. 112-117, Toowoomba, Australia 1994
[7] G. Chow, X. Li, Towards a System for Automatic Facial Feature Detection, Pattern Recognition Vol. 26, No. 12, pp. 1739-1755, 1993
[8] Y. Ebiswana, Unconstrained Pupil Detection Technique using Two Light Sources and the Image Difference Mathod, Visualization and intelligent Design in Engineering and Architecture II/ed. by S. Hernandez. - Southhampton: Computational Mechanical Publications, 1995
[9] G. J. Edwards, A. Lanitis, C. J. Taylor, T. F. Cootes, Statistical Models of Face Images- Improving Specificity, Image and Vision Computing 1b, 1998, pp. 203-211
[16] K.-M. Lam, H. Yan, Locating and Extracting the Eye in Human Face Images, Pattern Recognition, Vol. 29, No. 5, pp. 771-779, 1996
[17] C. Motrimoto, D. Koons, A. Amir, M. Flicker, Pupil Detection and Tracking Using Multiple Light Sources, Image and Vision Computing, Vol. 18, No. 4, March 2000, Elsevier, Netherlands
[19] M. Oberländer, Hyperpermutation Networks - A Discrete Approach to Machine Perception, 3rd Workshop an Weightless Neural Networks, York, 30th March 1999
[20] C. H. Morimoto, Real-Time Multiple Face Detection Using Active Illumination, Proceedings of the fourth international Conference an automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[26] R. Stiefelhagen, J. Yang, A. Waibel, Tracking Eyes and Monitoring Eye Gaze, Proceedings of Perceptual User Interfaces (PUI'97) Banif, Alberta, Canada 1997 (werner.ira.uka.de/iSL.publications.html)
[28] Y.-L. Tian, T. Kanade, J. F. Cohn, Dual State Parametric Eye Tracking, Proceedings of the 4th International Conference an Automatix Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[30] L.-Q. Xu, D. Machin, P. Sheppard, A Novel Approach to Real-tine Non-intrusive Gaze Finding, Proceedings of the British Vision Conference, University Southhampton, 14-17 September 1998
[31] X. Xie, R. Sudhakar, H. Zhuang, On Improving Eye Feature Extraction Using Deformable Templates, Pattern Recognition, Vol. 27, No.6, pp. 791-799, 1994
[33] M. Zobel, A. Gebhard, D. Paulus, J. Denzler, H. Niemann, Robust Facial Feature Localization by Coupled Features, Proceedings of the fourth International Conference an Automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[3] S. Baluja, D. Pomerleau, Non-Intrusive Gaze Tracking Using Artificial Neural Netwoorks, Technical Report CMU-CS-94-102, Carnegie Mellon University, 1994
[6] A. Gee, R. Cipolla, Non-intrusive Gaze Tracking for Human-Computer Interaction, Proceedings on Mechatronics and Machine Vision in Practice, pp. 112-117, Toowoomba, Australia 1994
[7] G. Chow, X. Li, Towards a System for Automatic Facial Feature Detection, Pattern Recognition Vol. 26, No. 12, pp. 1739-1755, 1993
[8] Y. Ebiswana, Unconstrained Pupil Detection Technique using Two Light Sources and the Image Difference Mathod, Visualization and intelligent Design in Engineering and Architecture II/ed. by S. Hernandez. - Southhampton: Computational Mechanical Publications, 1995
[9] G. J. Edwards, A. Lanitis, C. J. Taylor, T. F. Cootes, Statistical Models of Face Images- Improving Specificity, Image and Vision Computing 1b, 1998, pp. 203-211
[16] K.-M. Lam, H. Yan, Locating and Extracting the Eye in Human Face Images, Pattern Recognition, Vol. 29, No. 5, pp. 771-779, 1996
[17] C. Motrimoto, D. Koons, A. Amir, M. Flicker, Pupil Detection and Tracking Using Multiple Light Sources, Image and Vision Computing, Vol. 18, No. 4, March 2000, Elsevier, Netherlands
[19] M. Oberländer, Hyperpermutation Networks - A Discrete Approach to Machine Perception, 3rd Workshop an Weightless Neural Networks, York, 30th March 1999
[20] C. H. Morimoto, Real-Time Multiple Face Detection Using Active Illumination, Proceedings of the fourth international Conference an automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[26] R. Stiefelhagen, J. Yang, A. Waibel, Tracking Eyes and Monitoring Eye Gaze, Proceedings of Perceptual User Interfaces (PUI'97) Banif, Alberta, Canada 1997 (werner.ira.uka.de/iSL.publications.html)
[28] Y.-L. Tian, T. Kanade, J. F. Cohn, Dual State Parametric Eye Tracking, Proceedings of the 4th International Conference an Automatix Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[30] L.-Q. Xu, D. Machin, P. Sheppard, A Novel Approach to Real-tine Non-intrusive Gaze Finding, Proceedings of the British Vision Conference, University Southhampton, 14-17 September 1998
[31] X. Xie, R. Sudhakar, H. Zhuang, On Improving Eye Feature Extraction Using Deformable Templates, Pattern Recognition, Vol. 27, No.6, pp. 791-799, 1994
[33] M. Zobel, A. Gebhard, D. Paulus, J. Denzler, H. Niemann, Robust Facial Feature Localization by Coupled Features, Proceedings of the fourth International Conference an Automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
Claims (29)
1. System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten,
bestehend aus einer Vorrichtung zur Detektion der Augen und einer nachgeschalteten
Einheit zur Bestimmung der Blickrichtung der beobachteten Person,
dadurch gekennzeichnet,
daß die Vorrichtung zur Detektion der Augen eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt,
und daß die Vorrichtung zur Bestimmung der Blickrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist.
dadurch gekennzeichnet,
daß die Vorrichtung zur Detektion der Augen eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt,
und daß die Vorrichtung zur Bestimmung der Blickrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist.
2. Vorrichtung zur Detektion von Augen,
dadurch gekennzeichnet,
dass die Vorrichtung eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt.
dadurch gekennzeichnet,
dass die Vorrichtung eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt.
3. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch
gekennzeichnet, dass im Rahmen der Radienanpassung, der Bereich in welcher die
Vorrichtung zur Kreisdetektion nach Kreisen suchen auf einen minimalen Bereich rmin
und einen maximalen Bereich rmax beschränkt wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Beschränkung des
Bereichs von Bild zu Bild adaptiv angepaßt wird, wobei als Referenzwert der Radius r des
Kreises benutzt, welcher eine im Bild zuvor detektierte Iris umschreibt, und auf dieser
Grundlage die neuen Werte von rmin und rmax auf wenige Bildpixel (Bildauflösungen)
weniger beziehungsweise mehr als r festgelegt werden,
wobei die Werte von rmin und rmax gewisse absolute Grenzen nicht unter- bzw. überschreiten dürfen.
wobei die Werte von rmin und rmax gewisse absolute Grenzen nicht unter- bzw. überschreiten dürfen.
5. Verfahren nach einem der Ansprüche Anspruch 3 bis 4, dadurch gekennzeichnet,
dass in einem Bild kein Auge detektiert wurde, für die Auswertung des nachfolgenden
Bildes die Werte von rmin und rmax unverändert herangezogen werden.
6. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch
gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines kanten
orientierten Detektionsverfahrens, insbesondere der Hough-Transformation arbeitet.
7. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch
gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines Verfahrens
der polaren Kantendetektion arbeitet.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Vorrichtung zur
Kreisdetektion, nicht nur Kreise sondern auch andere, beliebig vordefinierbare Bahnen
detektieren kann.
9. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch
gekennzeichnet, dass der der Vorrichtung zur Kreisdetektion nachgeordnete
Klassifikator auf Grundlage der ihm gelieferten Daten selektierte Bildbereiche
klassifiziert um festzustellen, ob es sich bei diesen Bereichen um die Abbildung eines
Auges handelt.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Klassifikator in
einem Schritt eine komplette Liste aller innerhalb einer Suchbox durch die Vorrichtung
zur Kreisdetektion selektieren Bereiche klassifiziert.
11. Verfahren nach einem der Ansprüche 6 bis 9, dadurch gekennzeichnet, dass der
Klassifikator synchron, im Wechsel mit der Vorrichtung zur Kreisdetektion arbeitet,
dass nach jeder einzelnen erfolgreicher Kreisdetektion eine Klassifikation des so selektierten Bereiches zur Feststellung ob es sich hierbei um die Abbildung eines Auges handelt durchgeführt wird,
und dass eines der Abbruchkriterien dieses Prozesses der Kreisdetektion ein durch den Klassifikator erkanntes Auge dient.
dass nach jeder einzelnen erfolgreicher Kreisdetektion eine Klassifikation des so selektierten Bereiches zur Feststellung ob es sich hierbei um die Abbildung eines Auges handelt durchgeführt wird,
und dass eines der Abbruchkriterien dieses Prozesses der Kreisdetektion ein durch den Klassifikator erkanntes Auge dient.
12. Verfahren nach einem der Ansprüche Anspruch 3 bis 11, dadurch gekennzeichnet,
dass der Klassifikator in der Lage ist, zu erkennen ob ein Auge geschlossen oder
geöffnet ist.
13. Verfahren nach einem der Ansprüche 3 bis 12, dadurch gekennzeichnet,
dass für den Fall, dass der Klassifikator für eine Zeitdauer, welche signifikant länger als
die Dauer eines Lidschlages fortwährt, einen zur Einschlafwarnung geeigneten
Mechanismus auslöst und/oder notwendige Maßnahmen zur Verhinderung von Unfällen
ergreift.
14. Verfahren nach einem der Ansprüche Anspruch 3 bis 13, dadurch gekennzeichnet,
dass der Bereich, in welchem die Vorrichtung zur Detektion von Augen im Bild sucht,
durch eine sogenannte Suchboxen eingeschränkt wird, welche gleich oder kleiner als
der gesamte Bildbereich ist.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu
Beginn des Verfahrens mit Hilfe eines pixel-orientierten Klassifikators initialisiert
werden.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass der pixel-orientierte
Klassifikator ein Hyperpermutationsnetzwerke ist.
17. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu
Beginn des Verfahrens mit Hilfe von Template-Matching initialisiert werden.
18. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von
Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein Verfahren auf
Basis des optischen Flusses angewandt wird.
19. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von
Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein auf dieses
Problem angepasster Kalman-Filter angewandt wird.
20. Verfahren nach einem der Ansprüche 14 bis 19, dadurch gekennzeichnet, dass bei
der Suche nach Kreisen innerhalb einer Suchbox in der Mitte der Suchbox begonnen
wird und die weitere Ausdehnung des Suchbereichs von dort ausgehend einen
spiralförmigen Weg beschreibt.
21. Vorrichtung zur Kreisdetektion
dadurch gekennzeichnet,
dass die Vorrichtung auf der Basis eines polaren kanten-orientierten Algorithmus
realisiert ist, welcher nicht nur Kreise sondern auch andere, beliebig vordefinierbare
Bahnen detektieren kann.
22. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 21, dadurch
gekennzeichnet, dass zur Berücksichtigung der Verdeckung der Iris durch die
Augenlider, zwei Winkel α und β definiert werden, welche die Öffnungswinkel
beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht in
die Kreisdetektion einbezogen werden, festlegen.
23. Verfahren nach einem der Ansprüche 21 oder 22, dadurch gekennzeichnet, dass bei
der Auswertung der Wegintegrale der Kreisbahnen die Varianz der Helligkeiten entlang
der Bahn mit einbezogen wird.
24. Vorrichtung zur Bestimmung der Blickrichtung,
dadurch gekennzeichnet,
dass die Vorrichtung Einrichtungen zur Segmentierung der den Augen und der Nase
zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet
ist, welcher als Klassifikationsergebnis die Blickrichtung einer beobachteten Person
liefert.
25. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 24, dadurch
gekennzeichnet, dass die Einrichtung zur Segmentierung der der Nase der beobachteten
Person zugehörigen Bilddaten die Auswahl ausgehend von einem detektierten
Nasenloch trifft.
26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass die Detektion eines
Nasenlochs mittels eines polaren Kantendetektor mit nachgeschaltetem Klassifikator
erfolgt.
27. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein
gesonderter Klassifikator zur Klassifikation der Nasenausrichtung und ein gesonderter
Klassifikator zur Klassifikation der Blickrichtung der Augen verwendet wird.
28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass für den Fall, daß kein
Auge erkannt wurde, der Klassifikator zur Klassifikation der Nasenausrichtung eine
Schätzung der Blickrichtung durchführt.
29. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein
gemeinsamer Klassifikator die kombinierten Bilddaten der Augen und der Nase
klassifiziert um die Blickrichtung einer beobachteten Person zu schätzen.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10046859A DE10046859B4 (de) | 2000-09-20 | 2000-09-20 | System zur Blickrichtungsdetektion aus Bilddaten |
AU2001295572A AU2001295572A1 (en) | 2000-09-20 | 2001-09-19 | System for detecting a line of vision using image data |
PCT/EP2001/010820 WO2002025576A1 (de) | 2000-09-20 | 2001-09-19 | System zur blickrichtungsdetektion aus bilddaten |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10046859A DE10046859B4 (de) | 2000-09-20 | 2000-09-20 | System zur Blickrichtungsdetektion aus Bilddaten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10046859A1 true DE10046859A1 (de) | 2002-03-28 |
DE10046859B4 DE10046859B4 (de) | 2006-12-14 |
Family
ID=7657148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10046859A Expired - Fee Related DE10046859B4 (de) | 2000-09-20 | 2000-09-20 | System zur Blickrichtungsdetektion aus Bilddaten |
Country Status (3)
Country | Link |
---|---|
AU (1) | AU2001295572A1 (de) |
DE (1) | DE10046859B4 (de) |
WO (1) | WO2002025576A1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10255796A1 (de) * | 2002-11-28 | 2004-06-17 | Daimlerchrysler Ag | Verfahren und Vorrichtung zum Betrieb einer optischen Anzeigeeinrichtung |
DE10257963A1 (de) * | 2002-12-12 | 2004-07-08 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestimmung der 3D-Position von PKW-Insassen |
EP1486932A2 (de) * | 2003-06-05 | 2004-12-15 | DaimlerChrysler AG | Bildverarbeitungssystem für ein Fahrzeug |
DE102007001738A1 (de) * | 2007-01-11 | 2008-07-17 | Audi Ag | Verfahren und Computerprogrammprodukt zur Blickerfassung |
DE102014208008A1 (de) * | 2014-04-29 | 2015-10-29 | Bayerische Motoren Werke Aktiengesellschaft | Cursorgraphik in Abhängigkeit der Datenqualität von Eingabegeräten |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008045774A1 (de) * | 2008-09-04 | 2010-03-11 | Claudius Zelenka | Methode zur Erkennung der Blickrichtung |
CN114359265B (zh) * | 2022-03-04 | 2022-05-24 | 广东顺德富意德智能包装科技有限公司 | 一种基于目标跟踪的螺丝计数方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5291560A (en) * | 1991-07-15 | 1994-03-01 | Iri Scan Incorporated | Biometric personal identification system based on iris analysis |
US5471542A (en) * | 1993-09-27 | 1995-11-28 | Ragland; Richard R. | Point-of-gaze tracker |
EP0865637A4 (de) * | 1995-12-04 | 1999-08-18 | Sarnoff David Res Center | Erkennungssystem mit weitem und engen sichtfeld und verfahren |
US5912721A (en) * | 1996-03-13 | 1999-06-15 | Kabushiki Kaisha Toshiba | Gaze detection apparatus and its method as well as information display apparatus |
-
2000
- 2000-09-20 DE DE10046859A patent/DE10046859B4/de not_active Expired - Fee Related
-
2001
- 2001-09-19 AU AU2001295572A patent/AU2001295572A1/en not_active Abandoned
- 2001-09-19 WO PCT/EP2001/010820 patent/WO2002025576A1/de active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10255796A1 (de) * | 2002-11-28 | 2004-06-17 | Daimlerchrysler Ag | Verfahren und Vorrichtung zum Betrieb einer optischen Anzeigeeinrichtung |
DE10257963A1 (de) * | 2002-12-12 | 2004-07-08 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestimmung der 3D-Position von PKW-Insassen |
EP1486932A2 (de) * | 2003-06-05 | 2004-12-15 | DaimlerChrysler AG | Bildverarbeitungssystem für ein Fahrzeug |
DE10325762A1 (de) * | 2003-06-05 | 2004-12-23 | Daimlerchrysler Ag | Bildverarbeitungssystem für ein Fahrzeug |
EP1486932A3 (de) * | 2003-06-05 | 2005-11-02 | DaimlerChrysler AG | Bildverarbeitungssystem für ein Fahrzeug |
DE102007001738A1 (de) * | 2007-01-11 | 2008-07-17 | Audi Ag | Verfahren und Computerprogrammprodukt zur Blickerfassung |
DE102007001738B4 (de) * | 2007-01-11 | 2016-04-14 | Audi Ag | Verfahren und Computerprogrammprodukt zur Blickerfassung |
DE102014208008A1 (de) * | 2014-04-29 | 2015-10-29 | Bayerische Motoren Werke Aktiengesellschaft | Cursorgraphik in Abhängigkeit der Datenqualität von Eingabegeräten |
Also Published As
Publication number | Publication date |
---|---|
DE10046859B4 (de) | 2006-12-14 |
WO2002025576A1 (de) | 2002-03-28 |
AU2001295572A1 (en) | 2002-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19614975C2 (de) | Gesichtsbildverarbeitungssystem | |
EP3157426B1 (de) | Vorrichtung, verfahren und computerprogramm zur detektion eines sekundenschlafs | |
EP2467828B1 (de) | Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform | |
DE102007056528B3 (de) | Verfahren und Vorrichtung zum Auffinden und Verfolgen von Augenpaaren | |
EP3542211B1 (de) | Verfahren und vorrichtung sowie computerprogramm zum ermitteln einer repräsentation eines brillenglasrands | |
DE60209989T2 (de) | Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung | |
EP1119822B1 (de) | Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung | |
DE69936620T2 (de) | Verfahren und Vorrichtung zum Segmentieren von Handgebärden | |
DE69837233T2 (de) | Verfahren und Gerät zur Bestimmung der Augenposition in einem Bild | |
EP3248179B1 (de) | Verfahren und vorrichtung zum erkennen von sekundenschlaf eines fahrers eines fahrzeugs | |
DE69730811T2 (de) | Anlage zur Bilderkennung | |
DE4406020C1 (de) | Verfahren zur automatisierten Erkennung von Objekten | |
AT505338A1 (de) | Verfahren zur wahrnehmungsmessung | |
WO1995004977A1 (de) | Verfahren zur erkennung der räumlichen lage und drehlage von in geeigneter weise markierten objekten in digitalen bildfolgen | |
DE19634768A1 (de) | Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild | |
DE112011105445B4 (de) | Rote-Augen-Bestimmungsvorrichtung | |
DE10046859B4 (de) | System zur Blickrichtungsdetektion aus Bilddaten | |
EP2483834B1 (de) | Verfahren und Vorrichtung zum Erkennen einer Fehldetektion eines Objekts in einem Bild | |
DE10125971A1 (de) | Verfahren zur Entfernungsmessung ausgedehnter Objekte in Verbindung mit einer optischen Betrachtungseinrichtung und Mikroskop zur Durchführung desselben | |
EP0713592B1 (de) | Verfahren zur erkennung der räumlichen lage und drehlage von in geeigneter weise markierten objekten in digitalen bildfolgen | |
DE102010054168B4 (de) | Verfahren, Vorrichtung und Programm zur Bestimmung der torsionalen Komponente der Augenposition | |
DE102022119865A1 (de) | Verfahren zum Schätzen von Positionen von Gelenkpunkten und Steuereinrichtung für ein Kraftfahrzeug | |
DE102021212673A1 (de) | Verfahren und Bediensystem zur Bedienung mindestens eines an einem Fahrzeug angeordneten, verstellbaren Stellteils | |
DE102016200035A1 (de) | Verfahren zur Erkennung von Bewegungen mindestens eines bewegten Objektes im dreidimensionalen Raum | |
DE102021121149A1 (de) | Verfahren zur automatisierten Bestimmung einer Kopfpose eines Benutzers in einem Kraftfahrzeug |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8339 | Ceased/non-payment of the annual fee |