DE102004040023B4

DE102004040023B4 - Verfahren, Vorrichtung, Anordnung, Computerlesbares Speichermedium und Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts

Info

Publication number: DE102004040023B4
Application number: DE102004040023.7A
Authority: DE
Inventors: Dr. Steinhage Axel
Original assignee: Intel Deutschland GmbH
Current assignee: Intel Deutschland GmbH
Priority date: 2004-08-18
Filing date: 2004-08-18
Publication date: 2017-12-28
Anticipated expiration: 2024-08-19
Also published as: DE102004040023A1

Abstract

Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen wird, bei dem ein menschliches Gesicht in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; ein das menschliche Gesicht enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird, wobei als Teilbereich ein das menschliche Gesicht vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt wird; ein das menschliche Gesicht enthaltender zweiter Teilbereich innerhalb eines zweiten Bildes der Mehrzahl von sequentiell aufgenommenen Bildern basierend auf einer Farbwinkelcharakteristik identifiziert wird, wobei bei dem Identifizieren des menschlichen Gesichts das jeweilige Bild zunächst binarisiert und dann mit einem homogenen Rechteckfilter zweidimensional gefaltet wird, wodurch eine Position mit einer maximalen Filterantwort ermittelt wird, und dann die Position mit der maximalen Filterantwort in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen wird; und von dem ersten Bild nur der erste Teilbereich und von dem zweiten Bild nur der zweite Teilbereich zum nachgeführten Anzeigen des menschlichen Gesichts an eine Anzeigeeinrichtung bereitgestellt werden.

Description

Die Erfindung betrifft ein Verfahren, eine Vorrichtung, eine Anordnung, ein Computerlesbares Speichermedium und ein Programm-Element zum nachgeführten Anzeigen eines menschlichen Gesichts.
Für viele Anwendungsfälle ist es erforderlich, aus einem Videostrom ein menschliches Gesicht zu extrahieren und das extrahierte Gesicht auszugeben. Beispiele sind die Verfolgung eines Kopfes eines Vortragenden, die Extraktion von Gesichtern aus Videos von Überwachungskameras oder Videokonferenz-Applikationen.
Aus [2], [3], [4] sind Gesichtsverfolgungsalgorithmen bekannt.
Aus dem Stand der Technik, z. B. [8], sind ferner Gesichtsverfolgungs-Anwendungen bekannt, die in Echtzeit ein Gesicht verfolgen.
Zum Beispiel ist bekannt, dass eine Kamera manuell dem Gesicht einer sich bewegenden Person nachgeführt werden kann. Allerdings erfordert dies in der Regel die Anwesenheit einer die Kamera führenden Person und verursacht somit hohe Personalkosten. Ferner sind aus [5] und [7] sogenannte „active vision”-Systeme bekannt. Ein solches „active vision”-System führt auf der Basis eines Objektverfolgungsalgorithmus einen Kamerakopf mechanisch nach, der zu diesem Zweck mit einer Schwenk/Kipp-Motorisierung ausgestattet sein muss. Der Nachteil dieses Verfahrens ist das Erfordernis teurer Komponenten, wie zum Beispiel ein Motor, eine Aufhängung, ein Motorsteuerung und eine Stromversorgung.
Ferner ist bekannt, ein System aus mehreren fixierten Kameras zu bilden, zwischen denen basierend auf einer jeweiligen Sprecherposition umgeschaltet wird. Dieses zum Beispiel aus [6] bekannte Verfahren ist aufwändig und teuer.
Aus dem Stand der Technik sind Gesichtsverfolgungs-Anwendungen bekannt, die in zuvor abgespeicherten Videodaten ein Gesicht verfolgen.
Für eine solche „offline” Extraktion von Bildausschnitten aus abgespeicherten Videos ist eine kostenintensive manuelle Nachbearbeitung oder ein aufwendiger Bildverarbeitungsalgorithmus (siehe zum Beispiel [2], [3], [4]) erforderlich.
[9] zeigt ein Echtzeitverfahren zu Gesichtsbereich-Verfolgung in Bildaufnahmen und ein Verfahren zur Gesichtserkennung für ein Überwachungssystem.
[10] zeigt ein Verfahren zur Aufnahme interessierender Bereiche von beweglichen oder wechselnden Objekten, beispielsweise Personen, bei dem mit einem aus einem Bildsensor ausgelesenes Bild ein interessierender Bereich des Objekts für das Ausgabeformat bildfüllend verfolgt wird.
[11] zeigt ein Verfahren zum automatischen Lokalisieren von Gesichtern in digitalen Videoströmen, insbesondere ein Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, das Bildausschnitte eines größeren Eingabebildes nacheinander untersucht.
[12] zeigt eine Gesichtserkennungsvorrichtung zum Erzeugen eines Ausgangssignals, das repräsentativ dafür ist, wie wahrscheinlich es ist, dass eine Testbereich eines Bildes ein Gesicht enthält.
[13] und [14] zeigen eine Vielzahl von Verfahren zum Erkennen und Verfolgen von Gesichtern in Bildersequenzen.
Unter Benutzung einer Freisprecheinrichtung eines modernen Mobiltelefons kann sich ein Gesprächsteilnehmer während des Telefonats frei im Raum bewegen. Mit in gegenwärtigen Mobiltelefonen eingebauten Kameras ist eine mobile Videotelefonie möglich. Bewegt sich der Gesprächsteilnehmer während des Videotelefonats frei im Raum, nimmt der für den anderen Gesprächsteilnehmer interessante Teil des Videobildes, zum Beispiel das Gesicht des Gesprächspartners, häufig nur einen kleinen Teil des Videobildes ein. Auf den durch die kleine Bauform der Mobiltelefone bedingten miniaturisierten Bildschirmen lässt sich dann das Gesicht des Sprechers oft nur sehr schwer erkennen.
Bei von einer Bildaufnahmeeinrichtung aufgenommenen Bildern stellt ein Bereich von Interesse („region of interest”) oft nur einen kleinen Ausschnitt des gesamten aufgenommenen Bildes dar, so dass bei einer ablaufenden Videosequenz der interessante Bereich und dessen zeitlicher Verlauf häufig nur schwer sichtbar sind.
Der Erfindung liegt das Problem zugrunde, ein menschliches Gesicht in einer Mehrzahl von sequentiell aufgenommenen Bildern für einen Benutzer besser erkennbar darstellen zu können.
Das Problem wird durch die Merkmale des Anspruchs 1 und die Gegenstände der nebengeordneten Ansprüche gelöst.
Eine Grundidee der Erfindung ist dann zu sehen, bei einer Abfolge von zeitlich aufeinander folgenden Bildern, vorzugsweise in Echtzeit, aus jedem der Bilder ein Objekt, insbesondere ein menschliches Gesicht, von Interesse, das in einem Teilbereich der Bilder enthalten ist, herauszuschneiden und die herausgeschnitten Teilbereiche zum nachgeführten Anzeigen des Objekts bereitzustellen. Somit wird ein Teilbereich innerhalb von jedem der Bilder ermittelt, welcher das Objekt von Interesse, zum Beispiel ein menschliches Gesicht, enthält. Die so ermittelten Teilbereiche der Bilder werden dann zum nachgeführten Anzeigen des Objekts bereitgestellt (zum Beispiel zum Übermitteln an eine bzw. zur Darstellung auf einer Anzeigeeinrichtung, oder zur Archivierung). Das heißt, dass eine Sequenz von Teilbildern bereitgestellt wird, von denen jedes das Objekt und ggf. einen Umgebungsbereich davon enthält. Auf diese Weise wird mit Mitteln der Bildverarbeitung ein nachgefuhrtes Anzeigen eines interessierenden Abschnitts eines Bilds zeitaufgelöst ermoglicht, das heißt es wird aus einem großen Bild ein kleines Bild herausgeschnitten, und es werden diese kleinen Bilder so aneinander gereiht, dass sich für einen Beobachter anschaulich eine Art Film ergibt, der nur den interessierenden Bereich enthalt, wobei nicht interessierende andere Bildbereiche in diesem Film nicht zu sehen sind. Dies hat den Vorteil, dass nur ein Teilbereich von Interesse, nicht ein gesamtes Bild, an eine Anzeigeeinrichtung zu übermitteln ist, was zu einer erheblichen Reduktion der Menge von zu übertragenden Daten führt. Der interessierende Bereich ist auf einer Anzeige vergrößert darstellbar, was zu einer besseren Erkennbarkeit des Objekts von Interesse führt.
Bei der Erfindung wird somit die Kamera nicht nachgeführt, das heißt bei einer Bewegung des Objekts wird die Kamera nicht bewegt, sondern sie bleibt starr und nimmt bei allen Bildern der Sequenz denselben Abschnitt einer Szenerie auf. Statt die Kamera bei einer Bewegung des Objekts nachzuführen, wird eine nachgeführte Anzeige eines Objekts dadurch realisiert, dass ein fester Bildabschnitt einer Szenerie derart bearbeitet wird, dass ein das Objekt enthaltender Teilbereich des Bildabschnitts ermittelt und dargestellt wird. Es wird der Teilbereich innerhalb des konstanten Bildabschnitts nachgeführt, nicht die Bildaufnahmeeinrichtung.
Eine wichtige Anwendung der Erfindung ist die Gesichtsextraktion aus einem Bild und die Nachführung eines das Gesicht enthaltenden Bildausschnitts in Echtzeit zur Sprecherverfolgung bei Vorträgen und Präsentationen. Ein anderes wichtiges Einsatzgebiet der Erfindung ist eine Kamera-basierte Sprechverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten.
Ein Aspekt der vorliegenden Erfindung kann darin gesehen werden, in einem beliebigen Bild, zum Beispiel einem Videostrom, der aus einem Computer-File oder auch direkt von einer Videokamera kommen kann, ein Objekt, zum Beispiel ein menschliches Gesicht, vorzugsweise in Echtzeit zu finden und den Bildausschnitt mit dem Gesicht im Zentrum als Videostrom auszugeben. Dieser Ausgabe-Datenstrom kann dann direkt auf einem Bildschirm oder einem Videoprojektor ausgegeben werden und/oder als Videofile gespeichert werden. Somit bezieht sich ein Aspekt der vorliegenden Erfindung auf die Anwendung der Gesichtsverfolgung, nämlich die Verfolgung und Extraktion des Gesichts eines sich frei im Raum beweglichen Sprechers aus Videos bei Vorträgen und Präsentationen in Echtzeit.
Somit ist eine kostengünstige und universale Lösung geschaffen, die aus Material jeder beliebigen Videoquelle (”online” oder ”offline”) in Echtzeit auf Standard-Hardware Gesichter extrahiert und zum nachgeführten Anzeigen bereitstellt. Anschaulich macht sich die vorliegende Erfindung zu Nutze, dass Kameras auch im Low-Cost-Segment sehr hohe Auflosungen von zum Beispiel mehr als 600×800 Pixel aufweisen. Für viele Anwendungen ist so eine hohe Auflösung gar nicht erforderlich, oder es wird die erreichbare Auflösung durch andere Umstände limitiert. So werden zum Beispiel Online-Videokonferenzen aufgrund von Bandbreite-Limitierungen mit niedriger Auflösung übertragen oder es kommen nur kleine Bildschirme (zum Beispiel in einem Mobiltelefon) zum Einsatz. Eine wichtige Idee der Erfindung in diesem Zusammenhang ist, den Bildausschnitt, der das Gesicht des Sprechers enthält, in einem hochaufgelösten Ursprungsvideo automatisch zu finden, zu verfolgen und zur Ubermittlung, Darstellung bzw. Archivierung zur Verfugung zu stellen.
Mittels automatischen Nachführens des Bildausschnitts vor dem statischen Hintergrund (d. h. des Bildbereichs konstanter Große) ergibt sich fur den Betrachter der Eindruck, dass das Gesicht mit einer beweglichen Kamera verfolgt wird, anschaulich kann von einem virtuellen Kameramann gesprochen werden.
Die Erfindung stellt ein Bildverarbeitungsverfahren zur Verfügung, dass unter anderem die folgenden Vorteile aufweist. Menschliche Gesichter können aufgrund ihrer charakteristischen Farbverteilung und Form als Objekt in den Bildern gefunden werden und gemeinsam mit einem Umgebungsbereich als zum Beispiel rechteckige Teilbereiche dargestellt werden. Ferner ist das erfindungsgemäße Verfahren extrem schnell, kann in Echtzeit arbeiten und stellt nur geringe Anforderungen an die Rechenleistung und die Videoqualität. Bei extremen Beleuchtungsverhaltnissen können kleine Parameteranpassungen vorteilhaft sein, im Allgemeinen kann das erfindungsgemaße Verfahren für die unterschiedlichen Videoquellen jedoch ohne benutzerdefinierte Anpassung verwendet werden. Die Erfindung kann standardisiert als DirectShow^TM-Filter formuliert werden, und das Verfahren kann zum Beispiel in beliebige Windows-Videoanwendungen integriert werden und ist mit jeder Art von Videoeingabekanälen und Videoausgabekanälen kompatibel.
Insbesondere aufgrund der niedrigen Anforderungen an Rechenleistung und Kameraqualität kann das Verfahren der Erfindung auf vielen verschiedenen Hardware-Plattformen und Software-Plattformen implementiert werden. Zum Beispiel ist eine Implementierung als Windows^TM-DirectShow^TM-Filter (zur Sprechverfolgung in Vorträgen, zur Nachbearbeitung von Videos) und auch eine Implementierung in MATLABT^TM möglich, siehe [1].
Ein wichtiger Aspekt der Erfindung ist das Bereitstellen eines schnellen Verfahrens zum Lokalisieren von gesichtsförmigen hautfarbenen Bereichen in Videobildern. Dazu werden zunächst Videodaten von einem RGB-Format (R = Red, G = Green, B = Blue) in ein HSV-Format (H = Farbwinkel, S = Sättigung, V = Intensität) konvertiert. Da subjektiv wahrgenommene Unterschiede in der menschlichen Hautfarbe im Wesentlichen durch die unterschiedlichen Farbsättigungen bedingt sind, der Farbwinkel für verschiedene Hauttypen (schwarze, rote, gelbe oder weiße Haut) aber nur marginal variiert, wird der H-Wert zur Charakterisierung der Hautfarbe im Bild vorteilhaft verwendet.
Nachfolgend wird das Bild binarisiert, das heißt dass zum Beispiel die Bildpunkte, die in einem Intervall a um einen charakteristischen Hautfarbenwinkel O liegen, auf die maximale Intensität I_max gesetzt werden können, alle anderen auf den Wert ”0”. Außerdem können alle Pixel ebenfalls auf den Wert ”0” gesetzt werden, die hinsichtlich Farbsättigung S und/oder Intensität V außerhalb eines vorgegebenen Bereichs [S_min S_max] bzw. [V_min, V_max] liegen. Dies verhindert, dass Bildpunkte mit hohem Rauschanteil fälschlicherweise als hautfarben klassifiziert werden.
Befindet sich das Gesicht einer Person in dem Bild, so definiert das Gesicht unter normalen Umständen den größten zusammenhängenden hautfarbenen Bildbereich. Dieser Bereich hat in der Regel die Form eines Ovals, dessen längere Achse vertikal orientiert ist. Um die Position des Mittelpunktes dieses Bereichs zu finden, wird das binarisierte Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet. Der Ort mit der maximalen Filterantwort wird dann als Mittelpunkt des Gesichts definiert.
Dieses Verfahren ist besonders schnell, kann allerdings unter ungünstigen Umständen manchmal zu einer Fehlerklassifikation oder Störung im Bild bzw. zu Sprüngen in der Gesichtspositionsschätzung führen. Um die Robustheit des Systems zu erhöhen, wird die Positionsschätzung noch über ein dynamisches System zeitlich tiefpassgefiltert.
Schließlich kann ein Bildausschnitt von vorzugsweise wählbarer und konstanter Größe um die gefundene Gesichtsposition herum aus dem Ursprungsvideo ausgeschnitten und auf die ursprüngliche Bildgröße vergrößert ausgegeben werden. Dieser Schritt gemeinsam mit der dynamischen Verschiebung des Bildausschnitts erzielt den Effekt eines Hineinzoomens auf das Gesicht im Video und somit dafür, dass das Datenformat des Ausgabevideos das gleiche wie das des Eingabevideos ist. Auf diese Weise kann die Gesichtsextraktion und Gesichtsverfolgung als Filter in bestehenden Videoverarbeitungsketten implementiert werden.
Im Weiteren wird ein anderes Anwendungsgebiet der vorliegenden Erfindung beschrieben, nämlich die Kamerabasierte Sprecherverfolgung für Freisprech-Videotelephonie auf mobilen Endgeräten (zum Beispiel ein Mobiltelefon).
Die in Mobiltelefonen eingebauten Kameras (häufig aus dem Low-Cost-Segment) haben oft eine Auflösung, die weit über die darstellbare Display-Auflösung hinausgeht. Mit dem erfindungsgemäßen Verfahren kann eine solche Anzeige verwendet werden, um aus einem aufgenommenen Videobild senderseitig nur den Teil mit dem Gesicht des Sprechers herauszuschneiden und diesen Bildteil der Gegenstelle zu übertragen. Die vorliegende Erfindung ermöglicht dies, indem das erfindungsgemäße Verfahren in einem mobilen Endgerät implementiert wird.
Dadurch kann unter Verwendung eines Mobiltelefons mit eingebauter Kamera eine mobile Videotelephonie-Anwendung bereitgestellt werden, so dass eine Sprecherverfolgung beim Freisprechen während eines Videotelefonats geschaffen ist.
Mittels des erfindungsgemäßen Verfahrens ist es möglich, auch mit der beschrankten Rechenleistung eines mobilen Endgeräts das Gesicht eines Gesprächsteilnehmers in einem durch die Gerätekamera aufgenommenen Video in Echtzeit zu verfolgen und den entsprechenden Bildausschnitt auf dem Display der Gegenstelle darzustellen. Da die Auflösung der Displays von Mobiltelefonen meist klein im Vergleich zu jener des mit der Gerätekamera aufgenommenen Ursprungsvideos ist, ergibt sich für die Übertragung des Bildes im Rahmen der Videotelefonie eine Reduzierung der benötigten Bandbreite. Es wird der für das Gespräch wichtige Bildteil, der das Gesicht des Gesprachspartners enthält, in voller Auflösung übermittelt. Auf diese Weise können die Vorzüge des Freisprechens auch für die mobile Bildtelefonie genutzt werden.
Ein wichtiger Anwendungsaspekt der Erfindung besteht somit in der Implementierung der schnellen Methode zur Gesichtsverfolgung auf einem mobilen Endgerät zur Realisierung einer Freisprecheinrichtung für Videotelefonie.
Bei dem Verfahren zur Gesichtsverfolgung können auf einem hochaufgelösten Videobild nach Umwandlung von einem RGB-Format in ein HSV-Farbmodell diejenigen Bildpunkte extrahiert werden, deren Farbwinkel im Bereich der menschlichen Hautfarbe liegt. Danach kann mittels eines einfachen Rechteckfilters die Position des größten zusammenhängenden hautfarbenen Bildbereichs ermittelt werden. In den durch die Erfindung abgedeckten Anwendungsfällen ist dieser Ort identisch mit der Position des Gesichts des Sprechers. Mittels eines Tiefpassfilters werden Störungen in der Positionsschätzung herausgefiltert. Der Bildausschnitt mit dem Gesicht des Sprechers wird über das ursprüngliche Videobild nachgeführt, wodurch sich der Eindruck einer aktiven Kameranachführung ergibt, man könnte von einem virtuellen Kameramann sprechen.
Somit besteht ein Aspekt der Erfindung in der Anwendung von Kameras in mobilen Endgeräten zur Erfassung und Verfolgung eines sich im Raum bewegenden Sprechers bei einer Videotelephonie-Anwendung. Insbesondere die Reduzierung des Bildinhalts auf das Gesicht zur Datenreduktion ist hierbei vorteilhaft.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Im Weiteren werden Ausgestaltungen des erfindungsgemäßen Verfahrens beschrieben, die auch für die Vorrichtung, die Anordnung, das Programm-Element und das Computerlesbare Speichermedium gelten.
Der erste Teilbereich kann eine echte Teilmenge der Daten des ersten Bildes sein, und der zweite Teilbereich kann eine echte Teilmenge von Daten des zweiten Bildes sein. Gemaß dieser Ausgestaltung wird durch das Nachführen des Objekts die zur verarbeitende bzw. zu übertragende Datenmenge reduziert, was zu einer schnelleren Verarbeitung fuhrt, vorzugsweise in Echtzeit.
Bei dem Verfahren kann von dem ersten Bild nur der erste Teilbereich angezeigt werden, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem zweiten Bild kann nur der zweite Teilbereich angezeigt werden, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes. Somit ist eine Anzeigeeinrichtung mit geringer Auflösung ausreichend, um die erfindungsgemäß bereitgestellten Teilbereiche anzuzeigen.
Der erste Teilbereich kann vergrößert angezeigt werden, und nachfolgend kann der zweite Teilbereich vergrößert angezeigt werden, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist. Damit kann eine sukzessive Folge von Datenpaketen mit jeweils gleicher Größe bereitgestellt werden, die ohne weitere Anpassung direkt auf einer Anzeigeeinrichtung angezeigt werden kann.
Als Objekt kann ein menschliches Gesicht identifiziert werden. Alternativ kann auch jedes andere Objekt nachgeführt dargestellt werden, das sich aufgrund gegenüber der Umgebung unterschiedlicher Bildparameter von der Umgebung abhebt, zum Beispiel ein einfarbiger Fußball bei einer Fußballübertragung im Fernsehen.
Das Objekt kann basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert werden. Zum Beispiel weist ein menschliches Gesicht gegenüber vielen Hintergründen eine charakteristische Farbe auf, die zum Identifizieren des Objektes verwendet werden kann. Ein Fußball unterscheidet sich ebenfalls farblich von einem typischen Hintergrund, zum Beispiel von einem grünen Rasen. Ein Fußball ist rund, ein Gesicht ist häufig oval, so dass auch solche Formcharakteristika zur Identifizierung der Objekte mit verbesserter Zuverlässigkeit verwendet werden können.
Bei dem Identifizieren des Objekts kann das jeweilige Bild binarisiert werden. Zum Beispiel kann hierfür jedem Bildpixel ein logischer Wert ”0” oder ”1” zugeordnet werden. Ein komplexes grauabgestuftes oder farbabgestuftes Bild kann dadurch anschaulich in ein Schwarz-Weiß-Raster umgewandelt werden.
Bei dem Identifizieren des Objekts kann das zweidimensionale Bild mit einem homogenen Rechteckfilter zweidimensional gefaltet werden. Anders ausgedrückt wird eine aufwendige zweidimensionale Filterung auf zwei eindimensionale Filterungen zuruckgeführt, das heißt auf eine horizontale und auf eine vertikale Filterung, was eine besonders schnelle Bildverarbeitung ermöglicht.
Bei dem Identifizieren des Objekts kann das jeweilige Bild einer Tiefpassfilterung unterzogen werden, um ein Springen des Bildausschnitts zu vermeiden und um eine bessere und homogenere bzw. gleichmäßigere Darstellung des Bildes zu ermöglichen.
Als Teilbereiche kann ein das Objekt vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt werden. Die Rechteckseiten können benutzerdefiniert angepasst werden, zugeschnitten auf die Bedürfnisse des Einzelfalls.
Zum Bereitstellen eines Teilbereichs zum nachgefuhrten Anzeigen des Objekts kann der Teilbereich auf die Größe des Bildes hochskaliert werden.
Im Weiteren werden Ausgestaltungen der erfindungsgemäßen Vorrichtung beschrieben, die auch für das Verfahren, die Anordnung, das Computerlesbare Speichermedium und das Programm-Element gelten.
Die Bildaufnahmerichtung kann unbeweglich an der Vorrichtung befestigt vorgesehen werden. Indem die Bildaufnahmeeinrichtung statisch, das heißt starr bzw. mechanisch und somit immobil vorgesehen wird, ist eine komplizierte Dreh- bzw. Translationsbewegung der Kamera zum Aufnehmen von Bildern entbehrlich, so dass mit einer unbeweglich angeordneten Kamera ein nachgeführtes Anzeigen des Objekts ermöglicht ist.
Die Vorrichtung kann genau eine Bildaufnahmeeinrichtung, das heißt eine einzige Bildaufnahmeeinrichtung, aufweisen. Das Verwenden einer Mehrzahl von Kameras, die jeweils ein eigenes Bild aufnehmen, und von denen dann ein passendes Bild ausgewählt wird, ist dadurch erfindungsgemaß entbehrlich, da aus einem großen Bild ein Teilbereich von Interesse ausgewählt wird.
Die Vorrichtung kann als Computer ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine an dem Computer angebrachte Kamera sein kann. Insbesondere kann der Computer ein portabler Computer, zum Beispiel ein Laptop oder ein Pocket PC sein. Ein solcher Computer kann bequem zu einem Vortrag mitgenommen werden, wo dann mittels des auf dem Computer gespeicherten Programms zum Durchführen des erfindungsgemäßen Verfahrens eine nachgeführte Sprecherverfolgung in Echtzeit ermöglicht ist. Die nachgeführte Bilderfolge kann zum Beispiel unter Verwendung eines Projektionsgeräts auf eine Leinwand produziert werden oder kann auf einer Anzeigeeinrichtung (zum Beispiel auf einer LCD oder auf einer Kathodenstrahlröhre) angezeigt werden.
Die Vorrichtung kann als Mobiltelefon ausgeführt sein, wobei die Bildaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera sein kann. Im Rahmen der Videotelefonie kann ein erster Benutzer ein Mobiltelefon mit einer Kamera verwenden, wobei die Kamera in dem Mobiltelefon ein Bild des ersten Benutzers aufnimmt. Noch in dem ersten Mobiltelefon kann eine Bildverarbeitung gemäß der Erfindung erfolgen, so dass das Gesicht des ersten Benutzers aufweisende Teilbereiche des Bilds an ein zweites Mobiltelefon übermittelt werden können, das von einem zweiten Benutzer verwendet wird. Diesen mengenmäßig reduzierten Daten können dann auf einer Bildanzeige des zweiten Telefons angezeigt werden, um dem zweiten Benutzer den zeitlichen Verlauf des Gesichts des ersten Benutzers zugänglich zu machen. Auf diese Weise kann mit einer geringen Menge zu übertragender Daten eine Videotelephonie-Anwendung realisiert werden.
Im Weiteren werden Ausgestaltungen der erfindungsgemaßen Anordnung beschrieben. Diese gelten auch für das Verfahren, für die Vorrichtung, für das Computerlesbare Speichermedium und für das Programm-Element.
Die Anzeigeeinrichtung kann ein Mobiltelefon, ein Computer oder eine Projektionseinrichtung sein. Anders ausgedrückt können die übertragenen Daten auf der Anzeige eines Mobiltelefons, auf einem Computerbildschirm oder auf einer Leinwand einer Projektionseinrichtung dargestellt werden.
Somit kann die erfindungsgemäße Anordnung als Videotelefonie-Anordnung oder zum Verfolgen eines Vortragenden während eines Vortrags eingerichtet sein.
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Weiteren näher erläutert.
Es zeigen:
1 eine Bilderfolge, die den schematischen Ablauf eines Verfahrens gemäß einem Ausführungsbeispiel der Erfindung zeigt,
1A Verknüpfungsvorschriften zum Konvertieren eines Datensatzes in einem RGB-Format in ein HSV-Format im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
1B C-Programmcode zum Realisieren eines Teilschritts im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung,
2 eine Darstellung, die das Filtern im Rahmen des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung zeigt,
3 eine Bildschirmanzeige, die eine Implementierung des erfindungsgemäßen Verfahrens in einer Microsoft^TM-DirectShow^TM-Applikation zeigt,
4A bis 4D Bilder eines Systems, in dem ein Verfahren gemäß einem anderen Ausführungsbeispiel der Erfindung implementiert ist.
Gleiche oder ähnliche Komponenten in unterschiedlichen Figuren sind mit gleichen Bezugsziffern versehen.
Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.
Im Weiteren wird bezugnehmend auf 1 eine Schemabildfolge 100 beschrieben, anhand welcher ein Verfahren zum Nachführen eines Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern gemaß einem Ausführungsbeispiel der Erfindung beschrieben wird.
In 1 ist ein Eingangsvideobild 101 gezeigt, das einen Sprecher 102 mit einem Gesicht 103 während eines Vortrags zeigt.
Ferner ist in 1 eine erste Zwischenstufe 110 gezeigt, die aus dem Eingangsvideobild 101 mittels einer Konvertierung von einem RGB-Format in ein HSV-Format erhalten wird.
In dem RGB-Bildformat (R = Rot, G = Grün, B = Blau) wird die Intensitat der Grundfarben Rot, Grün und Blau durch die drei Werte r, g und b bezeichnet, die für jeden Bildpunkt jeweils durch ein Byte im Bereich [0,255] repräsentiert werden. Für eine schnelle Konvertierung wird ein aus [2] bekannter RGB-zu-HSV-Umwandlungsalgorithmus verbessert implementiert.
Gemäß dem HSV-Format bezeichnet H den Farbwinkel, S die Farbsättigung und V die Intensität.
1A zeigt für unterschiedliche Beziehungen zwischen den Werten r, g und b, wie die Werte H, S und V aus r, g und b generiert werden.
Durch die in 1A gezeigten, aufgrund der Fallunterscheidungen sehr effizient implementierbaren Gleichungen, werden aus r, g, und b der Farbwinkel H, die Sättigung S und die Intensität V jeweils im Intervall [0,255] berechnet.
Um in die in 1 gezeigte zweite Zwischenstufe 120 zu erhalten, werden die gemäß der ersten Zwischenstufe 110 in einen Farbwinkel H (0 bis 255) umgewandelten Daten binarisiert.
Im Rahmen dieser Binarisierung werden Bildpunkte als hautfarben definiert, welche den folgenden Bedingungen genugen:
In Gleichung (1) ist H der charakteristische Farbwinkel der Haut, der bei der hier benutzten Metrik bei H_s = 128 liegt. Der Farbwinkelbereich ±σ liegt in fast allen Anwendungsfällen bei σ ≈ 20. Die Mindestfarbsättigung, die ein Bildpunkt haben muss, um als hautfarben charakterisiert zu werden, wird vorzugsweise zu S_m ≈ 50 gewählt. Um zu dunkle und zu helle Bildpunkte nicht fälschlicherweise als hautfarben zu klassifizieren, werden die Grenzwerte V_l ≈ 0 und V_h ≈ 250 gesetzt.
Alle Bildpunkte, die außerhalb dieser Wertbereiche liegen, werden für die folgende Verarbeitung ignoriert. Hautfarbene Bildpunkte erhalten den logischen Wert ”1”, nicht hautfarbene Bildpunkte erhalten den Wert ”0”. Daraus ergibt sich das in 1 als zweite Zwischenstufe 120 gezeigte binäre Bild, das in 1 in einer Darstellung als Grauwertbild gezeigt ist.
Um die in 1 gezeigte dritte Zwischenstufe 130 zu erhalten, wird das hautfarbene Bild gemäß der zweiten Zwischenstufe 120 einer zweidimensionalen Faltung mit einem Rechteckfilter unterzogen.
Zur Beschleunigung der zweidimensionalen Filterung können im Rahmen einer Rechteckfilterung folgende Vereinfachungen angewendet werden:

a) Das binarisierte hautfarbene Bild wird bei seiner Erzeugung mit einem Rand von Filterhöhe versehen, der mit Nullen gefüllt wird, sogenanntes ”Zero Padding”. Hierbei kann bei der Filterung die Abfrage von Randüberschreitungen vermieden werden, siehe auch 2.
b) Es kommt ein homogener Filter zum Einsatz, wodurch die zweidimensionale Filterung in zwei eindimensionale Filterungen entkoppelt werden kann.
c) Die Filtermaske wird als konstant (Wert ”1”) angenommen. Auf diese Weise brauchen zur Ermittlung der Korrelation nur die Ränder des Filters berücksichtigt zu werden, siehe 2.
d) Zur Filterung werden Bildzeilen bzw. Bildspalten einfach aneinander gehängt, wodurch der Zeilen- bzw. Spaltensprung nicht berücksichtigt zu werden braucht.

Das implementierte Filterverfahren wird im Weiteren bezugnehmend auf 2 näher erläutert.
2 zeigt ein Filterschema 200, mit dem ein hautfarbenes Bild mit Nullrand 201 gefiltert wird. Das Hautfarbenbild 201 enthält einen Zentralbereich 208, der von einem Zero-Padding-Bereich 202 umgeben ist. Über das Hautfarbenbild 201 wird ein Rechteckfilter 203 gelegt, mit dem eine vertikale Filterung gemäß den Bildspalten (erste Bildspalte 204, zweite Bildspalte 205, usw.) sowie eine horizontale Filterung gemäß den Bildzeilen (ersten Bildzeile 206, zweite Bildzeile 207, etc.) durchgeführt wird. Somit wird bei dem Filterverfahren ein Zero-Padding und eine Filterentkopplung implementiert.
Die beschriebenen Vereinfachungen führen die Filterung auf ein Problem erster Ordnung zurück, im Gegensatz zu einer im Allgemeinen zweidimensionalen Filterung der Ordnung zwei, die wesentlich aufwändiger ist.
Die Filterung erfolgt in zwei Durchgängen. Zunächst werden alle Bildzeilen 206, 207, usw. aneinander gehängt von einer Zeile des Filters durchlaufen. Dabei wird jeweils das Skalarprodukt aus Filterzeile und überstrichenen Bildpunkten gebildet. Das Skalarprodukt kann dabei inkrementell ermittelt werden, indem der nachfolgende Wert des Skalarprodukts sich aus dem vorhergehenden durch Addition des ersten und Subtraktion des letzten Filterelements ergibt, siehe 2. Die sich ergebende Reihe von Skalarprodukten wird dann in Spalten angeordnet, die von einer vertikalen Filterspalte durchlaufen werden (siehe Bildspalten 204, 205, usw.). Auch in diesem Fall wird das Skalarprodukt inkrementell gebildet. Simultan wird dabei der Ort R = (R_Spalte, R_Zeile) = argmax(M) des maximalen Skalarprodukts M(Spalte, Zeile), also die maximale Filterantwort, ermittelt. Durch die beschriebene Vereinfachung kann dieses Verfahren sehr effizient implementiert werden, was anhand des in 1B gezeigten C-Codes ersichtlich wird.
Aus 1B sind zwei schnelle Schleifen erkennbar, für die horizontale und für die vertikale Filterung. Die Pointer filtImg, corrImg und skinImg zeigen auf Speicherbereiche für die gefilterten bzw. das mit Zero-Padding der Breite maxfilt erweiterte Hautfarbenbild. Die horizontale Dimension des Hautfarbenbildes ist cxImage, und die Anzahl seiner Bildpunkte ist numPixels. Mit maxfilt ist das Maximum der Filterdimensionen filtx und filty bezeichnet. In maxCorr steht am Ende die maximale Filterantwort, die beim Bildpunkt masPixel aufgetreten ist. Die Nummer dieses Pixels kann einfach in eine Zeilen/Spaltenkoordinate umgerechnet werden.
In 1 ist eine vierte Zwischenstufe 140 beschrieben, die nach dem Ermitteln einer Position mit einer maximalen Filterantwort 141 (anschaulich das Zentrum des Gesichts des Vortragenden) erhalten wird.
Im Weiteren wird beschrieben, wie aus dem Bild gemäß der vierten Zwischenstufe 140 ein Ausgabevideobild 150 erhalten wird, das aus der vierten Zwischenstufe 140 mittels Stabilisierens, Ausschneidens, Vergrößerns bzw. Tiefpassfilterns gebildet wird. Zum Tiefpassfiltern wird die Position R der maximalen Filterantwort zur Stabilisierung durch ein dynamisches System in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen:
Dadurch wird erreicht, dass der Ort P dem Ort der maximalen Filterantwort R folgt, solange die maximale Filterantwort M größer als eine vorgegebene Schwelle M_min ist. Auf diese Weise werden kurzfristige Störungen bei der Gesichtsfindung herausgefiltert, die nur wenige Bilder betreffen. Außerdem verhindert die Schwelle für die maximale Filterantwort ein unruhiges Springen des Bildes, falls sich im Bereich der Kamera kein zusammenhängender Hautfarbenbereich in ausreichender Größe befindet.
Mittels eines Zoom-Verfahrens (anschaulich eine Fokussierung bzw. Größenanpassung) wird an einer Position P ein Rechteck aus dem ursprünglichen Videobild 101 ausgeschnitten, dessen vertikale bzw. horizontale Dimension je nach gewählter Zoomstufe Z zum Beispiel der Hälfte bzw. einem Viertel derer des ursprünglichen Videos entspricht. Dieser Bildausschnitt wird dann wieder auf die ursprüngliche Position hochskaliert, indem jeder Bildpunkt vier Mal bzw. sechzehn Mal vervielfältigt wird.
Im Weiteren werden einige konkrete Realisierungen bzw. Implementierungen der Erfindung beschrieben.
Das System der Erfindung ist als MATLAB^TM-Programm realisiert. Mit Hilfe eines VMF-Plugins (”Vision For MATLAB”), siehe [1], ist das beschriebene Gesichtsverfolgungsverfahren implementiert und ist ein Gesamtsystem zur Mensch-Maschine-Interaktion mittels natürlicher Kommunikationskanäle integriert.
Bezugnehmend auf 3 wird eine Implementierung der Erfindung als Microsoft^TM-DirectShow^TM-Ausführungsbeispiel beschrieben.
Die Erfindung ist im Rahmen eines DirectShow^TM-Filters realisiert. Auf der Basis des Microsoft^TM-DirectShow^TM-Konzepts ist das beschriebene Verfahren in einen Filter implementiert. Mit Hilfe dieses Filters ist es möglich, sowohl aus Life-Videoquellen (Kameras, Streaming-Videos, TV-Capture-Devices) als auch aus gespeicherten Videos Gesichter zu verfolgen.
Ein Screenshot 300 aus 3 zeigt die Einbindung des Gesichtsverfolgungs-Filters (”Skin Tracker Filter”) in eine Video-Verarbeitungskette in dem Windows^TM Programm mit der Bezeichnung ”GraphEdit^TM”. Der Filter verfolgt in Echtzeit das Gesicht einer Person in einer Filmszene. In dem Screenshot 300 ist ein Ursprungsbild 301 und ein Teilbild 302 gezeigt. Das Teilbild 302 stellt einen Ausschnitt des Ursprungsbildes 301 vergrößert dar. Gemäß 3 wird somit ein Gesichtsverfolgungsfilter (”Skin Tracker Filter”) im Microsoft^TM-DirectShow^TM-Programm GraphEdit^TM verwendet. Hier wird ein 320×240DivX^TM encodierter TV-Mitschnitt als Videoquelle benutzt.
Durch Austausch des Videofiles gegen eine Life-Videoquelle, zum Beispiel eine Webcam, kann auch eine Echtzeit-Gesichtsverfolgung bei Präsentationen oder Vorträgen realisiert werden. Diese Anwendung ist zum Beispiel im Rahmen einer PowerPoint^TM-Prasentation realisiert.
Eine andere Anwendungsmöglichkeit ist im Bereich von Fahrerassistenzsystemen realisiert. Hier kann das Gesicht eines Autofahrers mit einem Life-Video verfolgt werden. Somit kann der Gesichtsverfolgungsfilter auch als Vorstufe für weitere Bildverarbeitungsverfahren eingesetzt werden, die auf dem Gesicht operieren sollen (zum Beispiel Blickrichtungsschätzung, etc.).
Im Weiteren wird bezugnehmend auf 4A bis 4D eine Anwendung eines Verfahrens zum Nachführen eines Objekts in einer Mehrzahl von sequentiell aufgenommenen Bildern zum Einsatz im Rahmen einer Videotelephonie-Anwendung beschrieben.
In 4A ist ein erster Screenshot 400 eines Pocket PCs gezeigt. In 4B ist ein zweiter Screenshot 410 von einer Gegenstelle gezeigt. 4C zeigt eine Anordnung 421 aus einem Notebook 421 und einem Pocket PC 422. In 4D ist eine vergrößerte Darstellung 430 des Pocket PCs 422 gezeigt.
Die Sprecherverfolgung für die Videotelefonie gemäß 4A bis 4D ist auf einem Pocket PC 422 (FujitsuSiemens^TM PocketLoox 600, 400 MHz Xscale, Betriebssystem PPC2002) implementiert. Als Videoquelle sind eine als CF-Karte einsteckbare Kamera (Pretec^TM-PocketCam, 1.3 MPixel) und die dazugehörigen Softwaretreiber verwendet.
4A bis 4D zeigen den verwendeten Aufbau. Der Pocket PC 422 steht in einer Docking Station. Eine Videotelephonie-Situation wird realistisch durch eine Verbindung der Docking Station mit dem Notebook-PC 421 simuliert. Auf den PC 421 wird der Bildschirm des Pocket PCs 422 dargestellt, so wie ihn eine mobile Gegenstelle während eines Videotelefonats sehen wurde. Der PC 421 dient dabei lediglich zur Darstellung des Bildschirminhalts, alle zur Gesichtsverfolgung notwendigen Berechnungen werden auf dem Pocket PC 422 in Echtzeit durchgeführt.
Bewegt sich nun ein Gesprächspartner im Raum vor der Kamera, wird dessen Gesichtsposition aus dem Videoeingang ermittelt und auf dem Bildschirm dargestellt. Zur Verdeutlichung werden in der Abbildung von 4A bis 4D sowohl das volle Kamerabild als auch der nachgeführte Bildausschnitt gezeigt. In einer anderen Videotelephonie-Anwendung kann nur der konkrete Bildausschnitt aus dem Gesicht des Sprechers mit niedriger Bandbreite übertragen werden.
Im konkreten Beispiel wird die ursprüngliche Bildgroße von 320×240 Pixel auf ein Teilbild von 80×60 Pixel reduziert, welches für die Videotelephonie-Anwendung wesentliche Informationen (Gesicht des Sprechers) enthält. Dadurch ergibt sich eine Reduktion der zu übertragenen Daten von 16:1. Natürlich ist es auch möglich, im Empfängergerät das Teilbild hoch zu skalieren, um einen künstlichen Zoomeffekt zu erzielen.
In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] Vision for MATLAB, http://www2.cmp.uea.ac.uk/-fuzz/vfm/default.html
[2] Bradski, GR ”Computer Vision Face Tracking For Use in a Perceptual User Interface”, Intel Technology Journal, Q2, 1998
[3] Fritze, F ”BuFaLo Face-Tracking DirectShow Filter”, http://www.geocities.com/fritzfra2001/
[4] Frischholz, R ”Face Detection”, http://home.tonline.de/home/Robert. Frischholz/face. htm
[5] Yeasin, M, Kuniyoshi, Y ”Detecting and Tracking Human Face and Eye Using Space-Varying Sensor and an Active Vision Head”, IEEE Computer Vision and Pattern Recognition, (CVPR'00)-Volume 2, Juni 2000
[6] Dockstader, SL, Tekalp, AM ”Multiple Camera Fusion for Multi-Object Tracking”, IEEE Workshop an Multi-Object Tracking (WOMOT'01, Juli/August 2001
[7] JP 10-188145 A
[8] Comaniciu, D.; Ramesh, V. ”Robust detection and tracking of human faces with an active camera” Visual Surveillance, 2000. Proceedings. Third IEEE 30 International Workshop an 1. July 2000, p. 11–18
[9] Kim, Y.-0., Paik, J., Jingu Heo, Koschan, A., Abidi, B., Abidi, M.: Automatic face region tracking for highly accurate face recognition in unconstrained environments. In: Proc. IEEE Conference an Advanced Video and Signal Based Surveillance, 21–22 July 2003, 29–36.
[10] DE 10 2004 015 806 A1
[11] Tim Braun: Automatische Lokalisierung von Gesichtern in digitalen Videoströmen. In: Diplomarbeit, Darmstadt, im Oktober 2003, Technische Universität Darmstadt,, Oktober 2003, 1–103.
[12] WO 2004/051553 A2
[13] SANTANA, M. F. C.: On Real-Time Face Detection in Video Streams. An Opportunistic Approach. PhD Thesis, Universidad de las Palmas de Gran Canaria, Departamento de Informàtica y Sistemas, Dec. 2002.
[14] HERODOTOU, N. [et al.]: Automatic location and tracking of the facial region in color video sequences. In: Signal Processing: Image Communication 14.5 (1999): pp. 359–388.

Claims

Verfahren zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen wird, bei dem ein menschliches Gesicht in einem ersten Bild von einer Mehrzahl von sequentiell aufgenommenen Bildern identifiziert wird; ein das menschliche Gesicht enthaltender erster Teilbereich innerhalb des ersten Bildes ermittelt wird, wobei als Teilbereich ein das menschliche Gesicht vollständig enthaltender rechteckförmiger Ausschnitt des Bildes ermittelt wird; ein das menschliche Gesicht enthaltender zweiter Teilbereich innerhalb eines zweiten Bildes der Mehrzahl von sequentiell aufgenommenen Bildern basierend auf einer Farbwinkelcharakteristik identifiziert wird, wobei bei dem Identifizieren des menschlichen Gesichts das jeweilige Bild zunächst binarisiert und dann mit einem homogenen Rechteckfilter zweidimensional gefaltet wird, wodurch eine Position mit einer maximalen Filterantwort ermittelt wird, und dann die Position mit der maximalen Filterantwort in zeitlicher Hinsicht einer Tiefpassfilterung unterzogen wird; und von dem ersten Bild nur der erste Teilbereich und von dem zweiten Bild nur der zweite Teilbereich zum nachgeführten Anzeigen des menschlichen Gesichts an eine Anzeigeeinrichtung bereitgestellt werden.
Verfahren nach Anspruch 1, bei dem der erste Teilbereich eine echte Teilmenge der Daten des ersten Bildes ist und bei dem der zweite Teilbereich eine echte Teilmenge der Daten des zweiten Bildes ist.
Verfahren nach Anspruch 1 oder 2, bei dem von dem ersten Bild nur der erste Teilbereich angezeigt wird, so dass die Auflösung des ersten Teilbereichs geringer ist als die Auflösung des ersten Bildes, und bei dem von dem zweiten Bild nur der zweite Teilbereich angezeigt wird, so dass die Auflösung des zweiten Teilbereichs geringer ist als die Auflösung des zweiten Bildes.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem der erste Teilbereich vergrößert angezeigt wird und bei dem nachfolgend der zweite Teilbereich vergrößert angezeigt wird, so dass die Auflösung des ersten Teilbereichs gleich der Auflösung des zweiten Teilbereichs ist.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem das menschliche Gesicht basierend auf einer Farbcharakteristik und/oder einer Formcharakteristik identifiziert wird.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem zum Bereitstellen eines Teilbereichs zum nachgeführten Anzeigen des menschlichen Gesichts der Teilbereich auf die Größe des Bildes höchskaliert wird.
Vorrichtung zum nachgeführten Anzeigen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, mit einer Bildaufnahmeeinrichtung zum sequentiellen Aufnehmen einer Mehrzahl von Bildern; mit einem Prozessor, dem die Mehrzahl von sequentiell aufgenommenen Bildern zuführbar ist, und der derart eingerichtet ist, dass die Verfahrensschritte des Verfahrens nach einem der vorstehenden Ansprüche durchführbar sind.
Vorrichtung nach Anspruch 7, bei der die Bildaufnahmeeinrichtung unbeweglich an der Vorrichtung befestigt vorgesehen ist.
Vorrichtung nach Anspruch 7 oder 8, die genau eine Bildaufnahmeeinrichtung aufweist.
Vorrichtung nach einem der Ansprüche 7 bis 9, die als Computer ausgeführt ist, wobei die Eilaufnahmeeinrichtung eine an dem Computer angebrachte Kamera ist.
Vorrichtung nach Anspruch 10, bei welcher der Computer ein portabler Computer ist.
Vorrichtung nach einem der Ansprüche 7 bis 9, die als Mobiltelefon ausgeführt ist, wobei die Bildaufnahmeeinrichtung eine in dem Mobiltelefon integrierte Kamera ist.
Anordnung zum nachgeführten Anzeigen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, mit einer Vorrichtung nach einem der Ansprüche 7 bis 12; mit einer Anzeigeeinrichtung, wobei der erste Teilbereich und der zweite Teilbereich der Anzeigeeinrichtung der Anordnung bereitstellbar ist, und wobei die Anzeigeeinrichtung der Anordnung zum nachgeführten Anzeigen des Objekts mittels sequentiellen Anzeigens des ersten Teilbereichs und des zweiten Teilbereichs eingerichtet ist.
Anordnung nach Anspruch 13, bei der die Anzeigeeinrichtung der Anordnung ein Mobiltelefon; ein Computer; oder eine Projektionseinrichtung ist.
Anordnung nach Anspruch 13 oder 14, eingerichtet als Videotelefonie-Anordnung.
Anordnung nach Anspruch 13 oder 14, eingerichtet zum Verfolgen eines vortragenden während eines Vortrags.
Computerlesbares Speichermedium, in dem ein Programm zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern gespeichert ist, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, wobei das Programm, wenn es von einem Prozessor ausgeführt wird, die Verfahrensschritte des Verfahrens nach einem der Ansprüche 1 bis 6 durchführt.
Programm-Element zum Nachführen eines menschlichen Gesichts in einer Mehrzahl von sequentiell aufgenommenen Bildern, wobei jedes der Bilder von einer Bildaufnahmeinrichtung mit einem für alle Bilder vorgegebenen, konstanten Bildbereich aufgenommen ist, wobei das Programm-Element, wenn es von einem Prozessor ausgeführt wird, die Verfahrensschritte des Verfahrens nach einem der Ansprüche 1 bis 6 durchführt.