DE69938173T2 - Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme - Google Patents

Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme Download PDF

Info

Publication number
DE69938173T2
DE69938173T2 DE69938173T DE69938173T DE69938173T2 DE 69938173 T2 DE69938173 T2 DE 69938173T2 DE 69938173 T DE69938173 T DE 69938173T DE 69938173 T DE69938173 T DE 69938173T DE 69938173 T2 DE69938173 T2 DE 69938173T2
Authority
DE
Germany
Prior art keywords
camera
participant
presets
pixels
binary image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69938173T
Other languages
English (en)
Other versions
DE69938173D1 (de
Inventor
Eric Cohen-Solal
Adrian P. Martel
Soumitra Sengupta
Hugo Strubbe
Jorge Caviedes
Mohamed Abdel-Mottaleb
Ahmed Elgammal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE69938173D1 publication Critical patent/DE69938173D1/de
Application granted granted Critical
Publication of DE69938173T2 publication Critical patent/DE69938173T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/78Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
    • G01S3/782Systems for determining direction or deviation from predetermined direction
    • G01S3/785Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
    • G01S3/786Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
    • G01S3/7864T.V. type tracking systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf den Bereich der Videokonferenztechnologie und insbesondere auf ein Verfahren zur automatischen Ermittlung der geeigneten Pan-, Tilt- und Zoomparameter einer Kamera, die mit gewünschten Bilder von Teilnehmern in einer Videokonferenzaufstellung übereinstimmen.
  • Während einer Videokonferenz ist es notwendig, die richtigen Kameraparameter für jeden Teilnehmer zu kennen, so dass das Bild der Kamera schnell von dem einen auf den anderen Teilnehmer ändern kann. Diese Parameter umfassen die richtige Zoom-, Pan- und Tiltbewegung der Kamera und werden kollektiv als die "Kameraparameter" bezeichnet, und wobei die Werte dieser mit jedem Teilnehmer assoziierten Parameter als Voreinstellungen "Presets" bezeichnet werden. Während die Konferenz "läuft" sollen die Teilnehmer die Möglichkeit erhalten, verschiedene Teilnehmer schnell zu beobachten; oft um kurzer Zeit von dem einen Teilnehmer auf den anderen wechseln.
  • Bekannte Anordnungen erfordern, dass ein Benutzer die Kameraparameter für jeden sich an der Konferenz beteiligenden Teilnehmer manuell einstellt. Jede Kamera, die im gebrauch ist, wird auf einen Teilnehmer fokussiert und es wird ein Voreinstellschalter betätigt. Wenn es beispielsweise drei Personen in der Konferenz gibt, wird der Schalter 1 benutzt, die geeigneten Kameraparameter für den Teilnehmer 1 darzustellen; der Schalter 2 für den Teilnehmer 2 und der Schalter 3 für den Teilnehmer 3. Wenn ein Benutzer wünscht, das Bild von Teilnehmer 1 zu Teilnehmer 2 zu wechseln, braucht er nur den Schalter 2 zu betätigen und die Kamera wird dementsprechend verlagert und fokussiert. Das Einstellen der Kamera aber für jeden Teilnehmer ist oft eine mühsame Angelegenheit, die von dem Kameramann oder dem Benutzer viel Zeit beansprucht. Außerdem müssen jeweils wenn ein Teilnehmer den Raum verlässt oder in denselben eintritt, die Voreinstellungen dementsprechend neu eingestellt werden. Wenn ein Teilnehmer lediglich seinen ursprünglichen Platz verlässt, gelten die ursprünglichen Voreinstellungen nicht mehr. Dies ist deutlich ein Problem, wenn ein Teilnehmer innerhalb des Raumes den einen Platz gegen den anderen wechselt. Wenn aber der Teilnehmer auf seinem Stuhl seine Lage ändert (vorwärts, rückwärts oder zur Seite lehnt usw.) können die Parameter sich ändern und es kann sein, dass dieser Teilnehmer nicht länger fokussiert ist, in der Mitte der Kamerasicht, oder in der gewünschten Größe in Bezug auf die Kamerasicht.
  • In US Patent 5.598.209 kann ein Benutzer auf einen Gegenstand oder eine Person richten, den bzw. die er beobachten möchte und das System speichert automatisch die Pan- und Tilt-Parameter der Kamera in Bezug auf die Mitte dieses Gegenstandes. Alle Gegenstände oder Personen in dem Raum sollen bestätigend selektiert und gespeichert werden, und zwar unter Steuerung eines Benutzers, was an sich wieder zeitaufwendig ist. Es gibt auch keine Möglichkeit, die Parameter zu aktualisieren, wenn ein Teilnehmer den Raum verlässt oder in denselben eintritt.
  • Die Fähigkeit automatisch Voreinstellpositionen vorher einzustellen, ist auch nützlich in einem Kongresslayout. Im Allgemeinen basieren in diesen Typen von Räumen die Kameravoreinstellungen auf die Mikrophone, die für jedes Individuum verwendet werden. Wenn ein Teilnehmer sein Mikrophon einschaltet, werden die Kameravoreinstellungen, die sich auf die Position dieses Mikrophons beziehen, verwendet. Dies ist problematisch, weil, wenn das Mikrophon nicht funktioniert, oder wenn ein bestimmtes Mikrophon von einem anderen Redner verwendet wird, die geeignete Korrelation zwischen Redner und Kamerasicht nicht auftreten würde.
  • Deswegen gibt es ein Bedürfnis nach einem Videokonferenzsystem, das automatisch die geeigneten Kameraparameter für alle Teilnehmer ermittelt und das auch sich selbst einstellen kann, wenn Teilnehmer den Raum verlassen oder in denselben eintreten. Dies Ziel einer Videokonferenz ist eine effektive Kommunikation und Konversation. Wenn ein Benutzer ständig das System nachregeln muss um Voreinstellungsparameter zu initialisieren oder zu aktualisieren, geht es am Ziel vorbei. Die Konversationsdynamik zwischen den Endverbrauchern ist anders als die bei einer Produktion (wie in einer Fernsehshow). Um diese Dynamik zu ermöglichen ist es erwünscht, möglichst viel von dem System zu automatisieren, ohne dass man zu einem statischen ausgezoomten Bild flüchtet, was zu einer wenig sinnvollen Kommunikation führen würde.
  • Ein Aspekt der vorliegenden Erfindung ist ein Verfahren zum berechnen von Voreinstellungen von Kameraparametern entsprechend Teilnehmern in einem Videokonferenzsystem. Das Verfahren umfasst das Schaffen von Tilt-, Pan- und Zoomparametern, und das Definieren eines Raumes auf Basis eines Layouts des Videokonferenzsystems. Das Verfahren umfasst weiterhin das Durchführen eines der nachfolgenden Vorgänge: das Bewegen der Kamera durch alle entsprechenden Schwenkwerte, entsprechenden Schwenkwerte, die durch den Raum definiert sind, in dem das Videokonferenzsystem sich befindet, und das Auszoomen der Kamera, so dass alle möglichen Teilnehmer von der Kamera gesehen werden können und so dass eine Stelle jedes Teilnehmers in dem Raum ermittelt werden kann. Das Verfahren schafft weiterhin das Detektieren von Teilnehmern innerhalb des Raums und das Berechnen der Voreinstellungen, die mit den Teilnehmern übereinstimmen, der Voreinstellungen, die eine Kamerasicht definieren, der Voreinstellungen, die auf wenigstens einer optimalen Position der Teilnehmer in der Kamerasicht basieren, einer Ausrichtung der Mitte des Kopfes der Teilnehmer mit einer Mitte der Kamerasicht, und einer Ausrichtung der Mitte eines Teilnehmers mit der Mitte der Kamerasicht.
  • Dieser Aspekt ermöglicht, ebenso wie die nachfolgenden Aspekte, eine automatische Detektion und Aktualisierung von Kameraparametern, die mit Teilnehmern an einer Videokonferenz übereinstimmen.
  • Nach einem anderen Aspekt der vorliegenden Erfindung umfasst ein Videokonferenzsystem wenigstens eine Kamera mit Pan-, Tilt- und Zoomparametern. Die Parameter haben Voreinstellwerte, die entsprechenden Teilnehmern des Videokonferenzsystems zugeordnet sind. Jede der Voreinstellungen definieren eine Kamerasicht und werden bestimmt durch: das Pannen oder Zoomen der Kamera durch einen Raum, definiert durch das Videokonferenzsystem, das Detektieren eines Teilnehmers und das Definieren einer Voreinstellung auf Basis einer Kameraposition, die den Teilnehmer in eine optimale Position bringen wird, und zwar eine Position, in der der Kopf eines Teilnehmers gegenüber der Mitte der Kamerasicht ausgerichtet ist, und einer Position, in der die Mitte des Teilnehmers gegenüber der Mitte der Kamerasicht ausgerichtet ist.
  • Nach noch einem anderen Aspekt der vorliegenden Erfindung umfasst ein Videokonferenzsystem wenigstens eine Kamera mit Pan-, Tilt- und Zoomparametern. Die Parameter haben vorher eingestellte Wert, die entsprechenden Teilnehmern des Videokonferenzsystems zugeordnet sind; wobei die Voreinstellungen eine Kamerasicht definieren. Das System umfasst weiterhin wenigstens eines der nachfolgenden Mittel: Panmittel zum Pannen der Kamera durch einen durch das Videokonferenzsystem definierten Raum und Zoommittel zum Auszoomen der Kamera um dadurch zu ermöglichen, dass die Kamera den durch das Videokonferenzsystem definierten Raum sieht. Ein Detektionsmittel wird verwendet um Teilnehmer in dem Raum zu detektieren. Eine Ermittlungsmittel wird verwendet um Voreinstellungen der Kamera auf Basis einer Kameraposition zu ermitteln, die einen der Teilnehmer in eine optimale Position bringt, eine Position, worin der Kopf des Teilnehmers gegenüber der Mitte der genannten Kamerasicht ausgerichtet ist, oder eine Position, worin die Mitte des Teilnehmers gegenüber der Mitte der Kamerasicht ausgerichtet ist.
  • Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein Videokonferenzsystem und ein Verfahren zu schaffen, das automatisch die Voreinstellungen für Kameraparameter in Bezug auf die richtigen Bilder von Teilnehmern ermittelt.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Videokonferenzsystem und ein Verfahren zu schaffen, das ständig die Kameravoreinstellungen entsprechend Änderungen in der Anzahl und Lage der Teilnehmer aktualisieren kann.
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1A, 1B und 1C je eine schematische Darstellung eines Raum-, Kongress- bzw. Tischlayouts eines Videokonferenzsystems nach der vorliegenden Erfindung,
  • 2A, 2B, 2C je eine schematische Darstellung eines Teilnehmers, der in das Gesichtsfeld der Kamera kommt, wenn die Kamera durch einen Raum bei einem Videokonferenzsystem nach der vorliegenden Erfindung schwenkt,
  • 3 ein schaubildliches Modell einer in der Erfindung verwendeten Kamera,
  • 4 eine Darstellung von Teilnehmern an einer Videokonferenz, wobei betreffende einstweilige Voreinstellungen angegeben sind,
  • 5 eine Darstellung der Mitte eines Teilnehmers, versetzt gegenüber der Mitte der Kamerasicht dieses Teilnehmers,
  • 6 eine Darstellung von Teilnehmern an einer Videokonferenz, wobei die betreffenden aktualisierten Voreinstellungen angegeben sind,
  • 7 eine Darstellung einer alternativen Ausführungsform der vorliegenden Erfindung, wobei zwei Kameras verwendet werden,
  • 8 eine Darstellung eines zylinderförmigen Koordinatensystems, verwendet zur graphischen Darstellung von Farben von Pixeln in Bilder,
  • 9 drei Graphiken, die Projektionen der YUV Farbdomäne darstellen, welche die Gebiete angeben, in denen hautfarbene Pixel liegen,
  • 10A10F ursprüngliche Bilder und betreffende binäre Bilder, wobei die binären Bilder durch Segregation von Pixeln auf Basis der Farbe gebildet werden,
  • 11 eine Darstellung, die zeigt, wie eine 3 × 3 Maske als Teil der Leuchtdichtevariationsdetektion nach der vorliegenden Erfindung verwendet wird,
  • 12A und 12B eine Darstellung, die eine Konnektivität vom Typ 4 bzw. 8 zeigen,
  • 13A und 13B Bilder, die zeigen, wie das Bild nach 3C und 3E aussehen würde, nachdem die Ränder nach der vorliegenden Erfindung entfernt worden sind,
  • 14 ein Bild, das Beispiele von Begrenzungsboxen zeigt, angewandt auf das Bild nach 3F,
  • 15 eine Folge von Darstellungen, die zeigen, wie Teile eines Bildes durch Scheitelpunkte dargestellt werden und verbunden werden zum Bilden einer Graphik nach der vorliegenden Erfindung,
  • 16A16D eine Folge von Bildern, welche die Anwendung einer Heuristik nach der vorliegenden Erfindung zeigen,
  • 17 ein Flussdiagramm, das die allgemeinen Schritte bei der Gesichtsdetektion zeigen.
  • In 1A ist ein Videokonferenzsystem dargestellt, bei dem die Teilnehmer an einem Tisch sitzen. 1B zeigt die Teilnehmer in einer Kongress-Anordnung. Eine Kamera 50 wird durch einen Controller 52 gesteuert um von der einen Seite des Raumes zu der anderen zu schwenken. Die Schwenkbewegung kann an derselben Stelle anfangen und enden. Wie beispielsweise in 1C dargestellt, könnte die Kamera 50 mitten in dem Raum aufgestellt sein, wobei die Teilnehmer alle um die Kamera sitzen. In dieser Situation würde die Kamera 50 komplett in einem Kreis drehen, um über den ganzen Raum zu schwenken. In der in 1B dargestellten Kongress-Anordnung könnte die Kamera 50 viele Schwenkstrecken machen um die jeweiligen Reihen zu decken. Jede dieser Strecken hätte dann einen anderen Tiltwinkel und wahrscheinlich einen anderen Zoom (obschon der Zoom der gleiche sein kann, wenn Teilnehmer unmittelbar übereinander in nahezu dem gleichen radialen Abstand von der Kamera sitzen). Auch hier könnte in der Kongress-Anordnung die Kamera 50 in der Mitte des Raumes aufgestellt sein und dann kann die Schwenkbewegung eine komplette Drehung erfordern, wie in 1C dargestellt.
  • Der Einfachheit halber wird die in 1A dargestellte Anordnung nun weiter beschrieben, obschon es einleuchten dürfte, dass dieselben Ideen für alle anderen genannten Anordnungen gelten und dass auch andere Anordnungen dem Fachmann einleuch ten dürften. Die vorliegende Erfindung wirkt in jedem Raum, definiert durch die Einstellbarkeit des Videokonferenzsystems. Es sind nur drei Teilnehmer (Part A, Part B, Part C) dargestellt, aber es können mehrere Teilnehmer beteiligt sein.
  • Eine Kamera 50 schwenkt von der einen Seite des Raums zu der anderen Seite, wobei Teilnehmer in das Gesichtsfeld der Kamera erscheinen und durch dasselbe hindurch gehen. Wie in den 2A2C dargestellt, erscheint ein Teilnehmer in verschiedenen Teilen der Kamerasicht, und zwar abhängig von der Schwenkposition der Kamera. Wie auch aus der Figur erkannt werden kann, ist für drei verschiedene Schwenkpositionen )P1, P2, P3) die Tilt- (T) und die Zoombewegung (Z) die gleiche. Es ist ebenfalls möglich, dass während der anfänglichen Abtastung durch die Kamera einer der anderen Parameter (d. h. Tilt oder Zoom) durch einen betreffenden Bereich verlagert wird, während die restlichen zwei Parameter konstant bleiben. Eine andere Möglichkeit ist, wenn die Kamera 50 den Zoomparameter derart eingestellt hat, dass der ganze Raum mit einem Male gesehen werden kann (wobei vorausgesetzt wird, dass genügend Information gesammelt werden kann um die Position unbeweglicher Teilnehmer ermitteln zu können, wie nachstehend noch deutlich erläutert wird). Auch hier wird der Einfachheit halber die Schwenkidee der Kamera beschrieben, aber es dürfte einleuchten, dass die anderen Vorschläge mit entsprechenden Änderungen implementiert werden könnten, was dem Fachmann einleuchten dürfte.
  • Während der anfänglichen Schwenkung wird jedes Frame, das die Kamera verarbeitet, analysiert um zu ermitteln, ob ein Teilnehmer sich in dem Frame befindet. Ein Verfahren um dies zu ermitteln wird nachstehend in dem Teilnehmerdetektionsteil detailliert beschrieben. Mit anderen Worten, andere Verfahren könnten implementiert werden. Für jeden Teilnehmer, der detektiert wird, wird eine schwenkende Kamera eine Vielzahl von Frames detektieren, die diesen Teilnehmer enthalten. Wenn beispielsweise eine Kamera Tausend Frames für einen Raum verarbeitet, könnte dies als Tausend Teilnehmer interpretiert werden, wenn ein Teilnehmer in jedem Frame sichtbar ist.
  • Um dieses Problem der Multiplikation der wirklichen Anzahl Teilnehmer zu vermeiden, wird jeder Teilnehmer mit einem Kennzeichen versehen. Der Massenmittelpunkt für jeden detektierten Teilnehmer wird für jedes verarbeitete Frame berechnet. Danach wird ein zweites, nachfolgendes Frame mit etwaigen Teilnehmern mit dem vorhergehenden, ersten Frame verglichen um zu sehen, ob die Kamera einen neuen Teilnehmer sieht oder nur ein anderes Frame, das denselben Teilnehmer enthält. Ein Verfahren zum Effektuieren dieses Vergleichs ist das Durchführen eines Extrapolation auf Basis der ersten Mitte und dem Betrag, um den die Kamera aus der ersten Position sich verlagert hat. Dies würde nahezu erzielen, wo die Mitte sein sollte, wenn das zweite Frame denselben Teilnehmer wie das erste Frame enthält. Auf gleiche Weise könnte der Massenmittelpunkt des zweiten Frames berechnet und danach mit dem ersten Mittelpunkt verglichen werden, zusammen mit der bekannten Bewegung der Kamera zwischen der Position, wo das erste Frame genommen wurde und der Position, wo das zweite Frame genommen wurde. Auf alternative Art und Weise könne eine Signatur für jeden detektierten Teilnehmer geschaffen werden und danach könnten die Signaturen der Teilnehmer in aufeinander folgenden Frames mit der anfänglichen Signatur verglichen werden. Signaturen sind in dem betreffenden technischen Bereich bekannt. Einige Beispiele von Signaturtechniken werden nachstehend in dem Teilnehmeridentifikations- und Positionsaktualisierungsteil näher beschrieben. Wenn einmal bestimmt worden ist, dass das Bild des Teilnehmers in einem Frame liegt, können einstweilige Voreinstellungen berechnet werden.
  • In 3 ist ein schaubildliches Modell einer Kamera dargestellt. Ein Sensor 56 der Kamera hat einen Hauptpunkt (PP) mit einer x und einer y Koordinate PPx bzw. PPy. Eine Linse 58 hat eine Mittel, die auf einer Brennweite f von dem Hauptpunkt PP liegt. Eine Änderung in dem Zoom der Kamera wird durch eine Änderung der Brennweite f effektuiert. Eine kürzere f bedeutet ein breites Bild ("Auszoomen"). Eine Änderung in dem Schwenkparameter ist im Endeffekt eine Drehung des Sensors um die Schwenkachse. Eine Änderung in dem Tiltparameter ist eine Drehung des Sensors um die Tiltachse.
  • Wenn ein Gegenstand oder ein Teilnehmer 62 in das Gesichtsfeld der Kamera gelangt, kann die Stelle dieses Teilnehmers in dem Raum ermittelt werden, und zwar unter Anwendung herkömmlicher Verfahren, wenn zwei Frames mit diesem Teilnehmer verfügbar sind. Dies ist weil die Stelle des Hauptpunktes PP (nun bei 60 dargestellt) und der Brennpunkt f bekannt sind. Wenn die Kamera 50 durch einen Raum schwenkt, erfasst sie viele Frames mit Teilnehmern und auf diese Weise kann die Stelle jedes Teilnehmers in dem Raum ermittelt werden. Wenn die Kamera statt einer Schwenkbewegung eine Zoombewegung macht, sind zwei einzelne Messungen erforderlich um die Stelle zu ermitteln. Wenn die Stelle eines Teilnehmers einmal bekannt ist, kann die einstweilige Voreinstellung durch einen Prozessor 54 berechnet werden (1A1C).
  • Um die einstweilige Voreinstellung zu berechnen wird die Mitte des Teilnehmers ermittelt, wie oben die Kennzeichnung des Teilnehmers, wobei bekannte Techniken angewandt werden. So kann beispielsweise der Mittelwert des Umfangs des Teilnehmers und dessen Massenmittelpunktes berechnet werden. Der Mittelpunkt wird danach in die Mitte der Kamerasicht gestellt um beispielsweise die Voreinstellungen Psa, Tsa und Zsa für den Teil PartA in 1 zu erzeugen. Diese Schwenk- und Voreinstellungsberechnungsprozesse werden für alle Teilnehmer in dem Raum wiederholt und folglich wird auch ermittelt, wie viele Teilnehmer anfangs in dem Raum anwesend sind. Dies alles wird während des Einleitungsteils der Konferenz durchgeführt und kann später während einer Aktualisierungsroutine wiederholt werden, wie nachstehend noch näher beschrieben wird.
  • Wenn alle Teilnehmer in dem Raum einmal mit einen Kennzeichen versehen sind und alle einstweiligen Parameter berechnet worden sind, wie in 4 dargestellt, führt die Kamera 50 eine zweite Schwenkbewegung (oder eine Auszoombewegung) durch den Raum durch. Jedes vorher eingestelltes Bild wird weiter verfeinert, weil die in der anfänglichen Schwenkphase durchgeführte Kalibrierung im Allgemeinen nicht genau genug ist.
  • Wie in 5 dargestellt, wird die Mitte des Kamerabildes mit der Mitte des Kopfes jedes betreffenden Teilnehmers verglichen. Die Parameter werden derart eingestellt, dass in dem Kamerabild die Mitten ausgerichtet sind. Wenn die Voreinstellung verfeinert wird, wird die Voreinstellung, die einem "optimalen" Bild jedes Teilnehmers entspricht, berechnet. Dies kann anders sein, und zwar abhängig von den gesellschaftlichen Kulturen. So kann beispielsweise der Kopf und der Rumpf eines Teilnehmers 30-6-% des ganzen Frames beaufschlagen – wie in den nachrichten in den Vereinigten Staaten. Das optimale Bild erzeugt aktualisierte Voreinstellungen Psn', Tsn' und Zsn', wie in 6 dargestellt. Diese Werte werden ständig aktualisiert, und zwar abhängig davon, wie das System strukturiert ist und wie die Aktualisierungen durchgeführt werden sollen, wie nachstehend noch näher erläutert wird. Wenn eine Kamera einen einzigen Teilnehmer sieht und dieser Teilnehmer verlagert sich, müsste die neue optimale Position berechnet werden und die Kameravoreinstellung wird ständig dementsprechend eingestellt.
  • Die Kamera kann auf Teilnehmer fokussiert werden, und zwar auf Basis von Audioverfolgung, Videoverfolgung, einer durch einen Benutzer gemachten Selektion oder durch eine andere in dem betreffenden technischen Bereich bekannte Technik. Audioverfolgung allein ist begrenzt, weil die Genauigkeit davon abnimmt, wenn Menschen sich wei ter weg befinden und es kann sogar nicht angewandt werden, weil dieses System im Allgemeinen einen 4–5 Grad Fehler hat und es kann keine Verfolgung geben, wenn ein Teilnehmer zu reden aufhört.
  • Ein Name kann mit jedem Teilnehmer assoziiert werden, wenn dieser einmal detektiert worden ist. So können beispielsweise die drei Teilnehmer aus 1 als A, B und C identifiziert werden, so dass ein Benutzer bloß angeben könnte, dass er den Teilnehmer A sehen möchte und die Kamera bewegt sich zu der optimierten Voreinstellung für A. Außerdem könnte das System derart programmiert werden, dass es etwas spezifisches über jeden Teilnehmer lernt und folglich diesen Teilnehmer kennzeichnet. So könnte beispielsweise eine Signatur für jeden Teilnehmer geschaffen werden, es könnte die Farbe des Hemdes des Teilnehmers, oder ein Stimmenmuster genommen werden, oder es könnte eine Kombination aus Gesicht und Stimme verwendet werden um das mit einem Teilnehmer assoziierte Kennzeichen zu bilden. Mit dieser zusätzlichen Information wird, wenn der Teilnehmer A sich in dem Raum verlagert, wissen, welcher Teilnehmer sich verlagert und wird nicht bestürzt sein, wenn der Teilnehmer A durch das Bild geht, das Parameter für den Teilnehmer B entspricht. Weiterhin wird, wenn zwei Teilnehmer nahe genug beisammen sind, so dass sie sich ein Kamerabild teilen, können die zwei Teilnehmer als ein einziger Teilnehmer betrachtet werden, wobei die Kamera auf die Mitte der Kombination dieser Bilder fokussiert wird.
  • Wie oben erwähnt, ist ein Vorteil dieses Systems, dass es ermöglicht, dass die Voreinstellungen automatisch als die Dynamik der Änderung der Teilnehmer in dem Raum eingestellt werden. Offensichtlich, wenn eine Voreinstellung selektiert wird und der entsprechende Teilnehmer hat den Raum verlassen, wird das System dies spüren und die Voreinstellungen aktualisieren. Ein anderes Aktualisierungsverfahren ist, dass jeweils wenn eine neue Voreinstellung selektiert wird, die Kamera 50 auszoomt (oder eine Schwenkbewegung durch den Raum macht) um zu sehen, ob Menschen den Raum betreten oder verlassen haben und um die Voreinstellungen zu aktualisieren, bevor die Kamera 50 zu der selektierten Voreinstellung geht. Die Kamera 50 könnte derart gesteuert werden, dass sie periodisch, sogar wenn sie instruiert wird einen selektierten Teilnehmer in Bild zu nehmen, vorübergehend die Aufnahme dieses Teilnehmers beendet und eine Schwenkbewegung durch den Raum macht oder auszoomt um zu sehen, ob die Anzahl Teilnehmer sich geändert hat. Eine andere Technik ist das Erkennen, dass ein Teilnehmer nicht an der Stelle ist, wo er sich befinden sollte. Wenn beispielsweise die Kamera 50 den Befehl erhält, von der Voreinstellung für den Teilnehmer C beispielsweise auf den Teilnehmer A zu wechseln (1), wenn der Teilnehmer B den Raum verlassen hat, könnte das System dies lernen, und die dazu geeigneten Einstellungen machen. Noch eine andere Technik der Aktualisierung betrifft, dass die Kamera eine Schwenkbewegung durch den Raum macht (oder auszoomt) entweder periodisch oder jeweils, wenn eine neue Voreinstellung selektiert wird.
  • In 7 ist eine zweite Ausführungsform dargestellt. Diese Ausführungsform zeigt dieselben Merkmale die die aus 1A, mit der Ausnahme, dass eine zweite Kamera 64 hinzugefügt worden ist. Die anfängliche Kalibrierung wird auf dieselbe Weise durchgeführt wie oben beschrieben. Während der Konferenz aber wird die eine Kamera benutzt zum Fokussieren des entsprechenden Teilnehmers, während die andere Kamera zur kontinuierlichen Aktualisierung der Voreinstellungen verwendet wird. Die Aktualisierungskamera kann ständig ausgezoomt sein, so dass diese ermitteln kann, wenn ein Teilnehmer den Raum betritt oder denselben verlässt. Auf alternative Weise könnte die Aktualisierungskamera ständig durch den Raum schwenken und geeignete Aktualisierungen der Voreinstellungen machen. Die zwei Kameras teilen sich die Voreinstellungsinformation, beispielsweise den Prozessor 54. Es dürfte einleuchten, dass mehr Kameras verwendet werden könnten. So könnte beispielsweise für jeden Teilnehmer einzeln eine Kamera vorgesehen sein, der für die Konferenz geplant ist und dann könnte eine zusätzliche Kamera als Aktualisierungskamera verwendet werden.
  • Eine Art und Weise der Ermittlung, ob ein Teilnehmer sich in dem Kamerabild befindet, ist zu ermitteln, ob es in dem Bild, das die Kamera sieht, ein Gesicht gibt. Jedes Pixel in einem Bild wird im Allgemeinen in der HSV (Farbton, Sättigung, Wert) Farbdomäne dargestellt. Diese Werte werden auf einem zylinderförmigen Koordinatensystem abgebildet. Wie in 8 dargestellt, wobei P der Wert (oder Leuchtdichte) ist, wobei Θ der Farbton ist und wobei r die Sättigung ist. Wegen der Nichtlinearität des zylinderförmigen Koordinatensystems werden andere Farbräume verwendet um den HSV Raum anzunähern. In den vorliegenden Applikationen wird der YUV Farbraum verwendet, weil das meiste auf einem magnetischen Medium gespeicherte Videomaterial und der MPEG2 Standard beide diesen Farbraum benutzen.
  • Transformation eines RGB Bildes in die YUV Domäne und weitere Projektion in die VU, VY und VU Ebenen erzeugen Graphiken, wie diejenigen aus 9. Die kreisförmigen Segmente stellen die Annäherung der HSV Domäne dar. Wenn Pixel, die der Hautfarbe entsprechen, in dem YUV Raum graphisch dargestellt werden, fallen sie im Allgemeinen in diese dargestellten kreisförmigen Segmente. Wenn beispielsweise die Leuchtdichte eines Pixels einen Wert zwischen 0 und 200 hat, hat der Farbwert U im Allgemeinen einen Wert zwischen –100 und 0 für ein hautfarbenes Pixel. Dies sind allgemeine Werte auf Basis von Experimenten. Mit anderen Worten, ein Farbtrainingsvorgang könnte für jede verwendete Kamera durchgeführt werden. Die Ergebnisse dieses Trainings würden dann zum Erzeugen genauerer hautfarbener Segmente verwendet werden.
  • Um ein Gesicht zu detektieren wird jedes Pixel in einem Bild untersucht um zu ermitteln, ob es hautfarben ist. Diejenigen Pixel, die hautfarben sind, werden aus dem Rest des Bildes gruppiert und werden auf diese Weise aus etwaige Gesichtskandidaten festgehalten. Wenn wenigstens eine Projektion eines Pixels nicht in die Grenzen des Hautclustersegmentes fällt, wird das Pixel als nicht hautfarben bezeichnet und aus der Erwägung als etwaigen Gesichtskandidaten entfernt.
  • Das resultierende durch die Hautfarbedetektion gebildete Bild ist binär, weil es entweder Teile des Bildes zeigt, die hautfarben sind, oder Teile, die nicht hautfarben sind, wie in den 10B, 10D und 10F dargestellt, die den ursprünglichen Bildern in den 10A, 10C und 10E entsprechen. In den Figuren ist weiß für Hautfarbe dargestellt und schwarz für nicht Hautfarbe. Wie in den 10A und 10B dargestellt, kann dieser Detektionsschritt allein große Teile des Bildes als ein Gesicht aufweisend ausschließen. Bekannt Techniken, die Farbe und Form benutzen, können auf diese Weise vor einfachen Hintergründen funktionieren, wie in 10A dargestellt. Wenn wir aber die 10C und 10D näher betrachten, und die 10E und 10F, dürfte es einleuchten, dass Detektion durch Farbe und Form allein nicht ausreicht um die Gesichter zu detektieren. In den 10C10F haben Gegenstände im Hintergrund, wie Leder, Holz, Kleider und Haare Farben ähnlich wie Haut. Wie in den 10D und 10F ersichtlich, befinden sich diese hautfarbenen Gegenstände unmittelbar neben der Haut der Gesichter, so dass die Gesichter selber schwer zu detektieren sind.
  • Nachdem die Pixel durch Farbe abgeschieden worden sind, werden die Pixel an den Rändern entfernt. Ein Rand ist eine Änderung in dem Helligkeitspegel vom einen Pixel zum anderen. Die Entfernung erfolgt dadurch, dass jedes hautfarbene Pixel genommen wird und dass die Varianz in den Pixeln rundherum in dem Leuchtdichtenanteil be rechnet wird; wobei eine große Varianz eine Anzeige eines Randes ist. Wie in 11 dargestellt, ist ein Kasten ("Fenster") zur Größe von entweder 3×3 oder 5×5 Pixeln über ein hautfarbenes Pixel gestellt. Offensichtlich könnten nebst einem quadratischen Kasten andere Masken verwendet werden. Die Varianz wird wie folgt definiert:
    Figure 00120001
    wobei āx der Mittelwert aller Pixel in dem untersuchten Fenster ist. Ein "hoher" Varianzpegel wird anders sein, und zwar abhängig von dem Gesicht und der verwendeten Kamera. Deswegen wird eine iterative Routine angewandt, startend mit einem sehr hohen Varianzpegel und herunter gehend zu einem niedrigen Varianzpegel.
  • In jedem Schritt der Varianzwiederholung werden Pixel aus der Gesichtserwägung entfernt, wenn die Varianz in einem Fenster um das hautfarbene Pixel herum größer ist als die Varianzschwelle, die für diese Wiederholung getestet wird. Nachdem alle Pixel in einer Wiederholung untersucht worden sind, werden die resultierenden verbundenen Komponenten aus Gesichtskennzeichen untersucht, wie nachstehend noch näher beschrieben wird. Verbundene Komponenten sind Pixel, die den gleichen binären Wert haben (weiß für Gesichtsfarbe) und die verbunden sind. Konnektivität kann entweder eine 4- oder 8-artige Konnektivität sein. Wie in 12A dargestellt, für eine Konnektivität von 4 Typ, wird das zentrale Pixel als nur mit Pixeln "verbunden" betrachtet, die unmittelbar daran grenzen, wie durch die "1" in den angrenzenden Kasten angegeben. In der Konnektivität vom 8-Typ, wie in 12B dargestellt, werden Pixel, die das zentrale Pixel diagonal berühren, auch als mit diesem Pixel "verbunden" betrachtet.
  • Wie oben erwähnt, werden nach jeder Wiederholung die verbundenen Komponenten in einem Komponentenklassifizierungsschritt untersucht um zu sehen, ob sie ein Gesicht sein könnten. Diese Untersuchung betrifft eine Untersuchung auf 5 verschiedene Kriterien, auf Basis eines Begrenzungskastens, gezeichnet um jede resultierende verbundene Komponente; Beispiele davon sind in 14 dargestellt, und zwar auf Basis des Bildes nach 10E. Die Kriterien sind:
    • 1. Das Gebiet des Begrenzungskastens im Vergleich zu einer Schwelle. Dies erkennt die Tatsache an, dass ein Gesicht im Allgemeinen nicht sehr groß oder sehr klein ist.
    • 2. Das Seitenverhältnis (Höhe im Vergleich zu Breite) des Begrenzungskastens im Vergleich zu einer Schwelle. Dies erkennt an, dass menschliche Gesichter im Allgemeinen in einen Bereich von Seitenverhältnissen fallen.
    • 3. Das Verhältnis zwischen dem Gebiet detektierter hautfarbener Pixel und dem Gebiet des Begrenzungskastens, im Vergleich zu einer Schwelle. Dieses Kriterium erkennt die Tatsache an, dass das von einem menschlichen Gesicht bedecktes Gebiet in einen Bereich von Prozentsätzen des Gebietes des Begrenzungskasten fällt.
    • 4. Die Orientierung länglicher Gegenstande innerhalb des Begrenzungskastens. Es gibt viele bekannte Möglichkeiten, die Orientierung einer Reihe von Pixeln zu ermitteln. So kann beispielsweise die Mittelachse ermittelt werden und die Orientierung kann anhand dieser Achse gefunden werden. Im Allgemeinen werden Gesichter nicht wesentlich um die Achse ("z-Achse") gedreht, die sich senkrecht zu der Ebene des Bildes erstreckt, und folglich werden Komponenten mit länglichen Gegenstanden, die gegenüber der z-Achse gedreht sind, aus der Erwägung entfernt.
    • 5. Der Abstand zwischen der Mitte des Begrenzungskastens und dem Massenmittelpunkt der untersuchten Komponente. Im Allgemeinen befinden sich Gesichter innerhalb der Mitte des Begrenzungskastens und werden beispielsweise nicht alle auf einer Seite liegen.
  • Die Wiederholungen für Varianz werden fortgesetzt, wobei das Bild in kleinere Komponenten aufgeteilt wird, bis die Größe der Komponenten die einer Schwelle unterschreitet. Die Bilder nach den 10C und 10E sind in den 13A bzw. 13B nach dem Varianzwiederholungsprozess transformiert dargestellt. Wie erkannt werden kann, wurden Gesichter in dem Bild von den nicht-Gesicht hautfarbenen Gebieten im Hintergrund getrennt, und zwar als Ergebnis der Varianzwiederholung. Oft verursacht dies, dass das Gebiet mit detektierter Hautfarbe fragmentiert wird, wie in 13B ans Beispiel dargestellt. Dies geschieht, weil es entweder Objekte gibt, die Teile des Gesichtes einschließen (wie eine Brille oder Gesichtshaare) oder weil Teile wegen hoher Varianz entfernt wurden. Auf diese Weise ist es schwer durch Verwendung der Komponenten selber nach einem Gesicht zu suchen. Die Komponenten, die nach den Varianzwiederholungs- und Komponentenklassifizierungsschritten dennoch einen Teil des Gesichtes bilden können, werden verbunden um eine Graphik zu bilden, wie in 15 dargestellt. Auf diese Weise werden hautfarbene Komponenten, die ähnliche Merkmale aufweisen, und in dem Raum nahe beisammen liegen, gruppiert und danach weiter untersucht.
  • In 15 ist jede resultierende Komponente (welche die Farbdetektions-, Randentfernungs- und Komponentenklassifisierungsschritte überlebt) durch einen Scheitelpunkt einer Graphik dargestellt. Scheitelpunkte werden Verbunden, wenn sie im Raum in dem ursprünglichen Bild nahe beisammen liegen und wenn sie in dem ursprünglichen Bild eine ähnliche Farbe haben. Zwei Komponenten, i und j, haben eine gleiche Farbe, wenn: Yl – Yj| < ty ∧ |Ui – Uj| < tu ANDLINE Vi – Vj | < tv wobei Yn, Un und Vn die Mittelwerte der Leuchtdichte und des Farbtons der n. Komponente sind und wobei tn Schwellenwerte sind. Die Schwellen basieren auf Variationen in den Y-, U- und V-Werten in Gesichtern und werden hoch genug gehalten, so dass Komponenten desselben Gesichtes als ähnlich betrachtet werden. Komponenten werden als nahe beisammen liegend im Raum betrachtet, wenn der Abstand zwischen ihnen kleiner ist als eine Schwelle. Die räumliche Anforderung gewährleistet, dass räumlich in einem Abstand voneinander liegende Komponenten nicht gruppiert werden, weil Teile einer Gesichtes normalerweise nicht in räumlich entfernt liegenden Teilen eines Bildes liegen.
  • Die Verbindung zwischen Scheitelpunkten wird als Rand bezeichnet. Jeder Rand erhält eine Gewichtung, die zu dem euklidischen Abstand zwischen zwei Scheitelpunkten proportional ist. Das Verbinden der Scheitelpunkte wird zu einer Graphik oder zu einem Satz unzusammenhängender Graphiken führen. Für jede der resultierenden Graphiken wird der minimale aufspannende Baum extrahiert. Der minimale aufspannende Baum wird im Allgemeinen als den Subsatz einer Graphik definiert, wobei alle Scheitelpunkte dennoch verbunden sind und die Summe der Längen der Ränder der Graphik möglichst klein ist (minimale Gewichtung). Die Komponenten, die jeder resultierenden Graphik entsprechen werden danach klassifiziert als entweder Gesicht oder Nicht-Gesicht, und zwar unter Anwendung der Formparameter, definiert in dem oben genannten Komponentenklassifizierungsschritt. Danach wird jede Graphik in zwei Graphiken aufgeteilt, und zwar durch Entfernung des schwächsten Randes (des Randes mit der größten Gewichtung) und die entsprechenden Komponenten der resultierenden Graphiken werden wieder untersucht. Die Aufteilung wird fortgesetzt, bis ein Gebiet eines Begrenzungskastens, der um die resultierenden Graphiken geformt wird, kleiner ist als eine Schwelle.
  • Durch Zerlegung und Untersuchung jeder Graphik für ein Gesicht wird ein Satz aller möglichen Stellen und Größen von Gesichtern in einem Bild ermittelt. Dieser Satz kann eine Vielzahl falscher Positiven enthalten und auf diese Weise wird eine Heuristik angewandt um einige der falschen Positiven zu entfernen. Eine Suche nach allen Gesichtsmerkmalen (d. h., Nase, Mund, usw.) würde eine Schablone erfordern, die die für einen Suchraum zu groß werden würde. Versuche haben aber gezeigt, dass diese Gesichtsmerkmale Ränder mit einer hohen Varianz haben. Viele falsche Positiven können dadurch entfernt werden, dass das Verhältnis zwischen Pixeln hoher Varianz innerhalb eines möglichen Gesichtes zu der gesamten Anzahl Pixel in dem möglichen Gesicht untersucht wird.
  • Die oben genannte Heuristik wird dadurch effektuiert, dass zunächst ein morphologisch schließender Vorgang an den Gesichtskandidaten innerhalb des Bildes durchgeführt wird. Wie in dem betreffenden technischen Bereich bekannt, wird eine Maske gewählt und auf jedes Pixel innerhalb eines möglichen Gesichtsgebiets angewandt. So könnte beispielsweise eine 3 × 3 Maske verwendet werden. Ein Streckungsalgorithmus wird angewandt um die Grenzen von Gesichtskandidatenkomponenten zu erweitern. Danach wird ein Erosionsalgorithmus angewandt um Pixel von den Rändern zu eliminieren. Es dürfte dem Fachmann einleuchten, dass diese zwei Algorithmen, durchgeführt in dieser Reihenfolge, Lücken zwischen Komponenten füllen werden und auch die Komponenten in im Wesentlichen demselben Maßstab halten werden. Offensichtlich könnte man mehrere Streckungsschritte und danach mehrere Erosionsschritt durchführen, solange beide eine gleiche Anzahl Male angewandt werden.
  • Nun wird das Verhältnis der Pixel mit einer hohen Varianznachbarschaft innerhalb des Gesichtskandidatengebietes mit der gesamten Anzahl Pixel in dem Gesichtskandidatengebiet verglichen. In den 16A bis 16D wird ein ursprüngliches Bild in 16A auf mögliche Gesichtskandidaten untersucht, und zwar unter Anwendung oben beschriebener Verfahren, um das in 16B dargestellte binäre Bild zu erreichen. Der morphologische Schließvorgang erfolgt an dem binären Bild, was zu dem in 16C dargestellten Bild führt. Zum Schluss werden Pixel mit einer hohen Varianz, die in dem Bild nach 16C liegen, detektiert, wie in 16D dargestellt. Das Verhältnis der Pixel hoher Varianz zu der gesamten Anzahl Pixel kann danach ermittelt werden. Das ganze Teilnehmerdetektionsverfahren wird durch die Schritte S2–S16 aus 17 zusammengefasst.
  • Wie erkannt werden kann, können durch Steuerung einer Kamera zum Beobachten eines Raumes, definiert durch ein Videokonferenzsystem, Kameraparametervoreinstellungen, die mit Teilnehmern übereinstimmen, automatisch berechnet und ständig aktualisiert werden.
  • Obschon die bevorzugten Ausführungsformen beschrieben worden sind, dürfte es einleuchten, dass im Rahmen der vorliegenden Erfindung, definiert durch die beiliegenden Patentansprüche, mehrere Änderungen durchgeführt werden können.
  • Text in der Zeichnung
  • 11
    • Hautfarbenes Pixel

Claims (20)

  1. Verfahren zum Berechnen von Voreinstellungen von Kameraparametern in Übereinstimmung mit Teilnehmern (Teilnehmer A, Teilnehmer B, Teilnehmer C) in einem Videokonferenzsystem, wobei das genannte Verfahren Folgendes umfasst: – das Schaffen einer Kamera mit Tilt-, Schwenk- und Zoomparametern (50); – das Definieren eines Raum auf Basis eines Layouts des genannten Videokonferenzsystems; wobei Folgendes durchgeführt wird: – das Verlagern der genannten Kamera durch alle entsprechenden Panwerte, wobei die entsprechenden Panwerte durch den genannten Raum definiert werden, in dem das Videokonferenzsystem sich befindet, und – das Auszoomen der genannten Kamera, so dass alle möglichen Teilnehmer von der genannten Kamera gesehen werden können und so, dass eine Stelle jedes Teilnehmers in dem genannten Raum ermittelt werden kann; – das Detektieren und Kennzeichnen der genannten Teilnehmer zum Erhalten gekennzeichneter Teilnehmer innerhalb des genannten Raums; – das Berechnen der genannten Voreinstellungen entsprechend den genannten gekennzeichneten Teilnehmern, wobei die genannten Voreinstellungen eine Kamerasicht definieren, wobei die genannten Voreinstellungen auf wenigstens einem der nachfolgenden Elemente basieren: (i) einer optimalen Position der genannten gekennzeichneten Teilnehmer in der genannten Kamerasicht, (ii) eine Ausrichtung der Mitte eines Kopfes der genannten gekennzeichneten Teilnehmer mit einer Mitte der genannten Kamerasicht, und (iii) eine Ausrichtung einer Mitte des gekennzeichneten Teilnehmers mit der genannten Mitte der genannten Kamerasicht; und – das Aktualisieren der mit einem bestimmten gekennzeichneten Teilnehmer assoziierten Voreinstellungen, wenn eine Stelle des bestimmten gekennzeichneten Teilnehmers sich geändert hat, wobei die Aktualisierung kontinuierlich, periodisch ist, oder wenn eine neue Voreinstellung selektiert wird.
  2. Verfahren nach Anspruch 1, das weiterhin Folgendes umfasst: das Schaffen wenigstens einer zweiten Kamera zur Aktualisierung der genannten Voreinstellungen durch Durchführung der genannten Vorführung.
  3. Verfahren nach Anspruch 1, das weiterhin das Verfolgen der genannten gekennzeichneten Teilnehmer umfasst.
  4. Verfahren nach Anspruch 1, wobei der Schritt der Aktualisierung der genannten Voreinstellung weiterhin das Aktualisieren der genannten Voreinstellungen umfasst, indem das genannte Videokonferenzsystem wenigstens einen der nachfolgenden Vorgänge durchführt: das Einstellen einer Voreinstellung, wenn diese Voreinstellung von einem Benutzer gewählt wird, das Löschen einer Voreinstellung, wenn der Teilnehmer, der mit der Voreinstellung übereinstimmt, den genannten Raum verlässt, und das Wiederholen der genannten Durchführung.
  5. Verfahren nach Anspruch 1, wobei in dem genannten Berechnungsschritt, wenn mehr als nur ein Teilnehmer sich in der Kamerasicht befindet, die Teilnehmer zu einem einzigen kombinierten Bild kombiniert werden und die Mitte des kombinierten Bildes zum Ermitteln der genannten Voreinstellungen benutzt wird.
  6. Verfahren nach Anspruch 1, wobei der genannte Detektionsschritt Folgendes umfasst: – das Schaffen eines digitalen Bildes, bestehend aus einer Anzahl Pixel (52); – das Erzeugen eines binären Bildes aus dem digitalen Bild durch Detektion hautfarbener Pixel (54); – das Entfernen von Pixeln, die mit Rändern in dem Leuchtdichteanteil des genannten binären Bildes übereinstimmen, wodurch binäre Bildanteile erzeugt werden (56); – das Abbilden der genannten binären Bildanteile in wenigstens eine Graphik (512); und – das Klassifizieren der genannten abgebildeten binären Bildanteile als Gesichts- und Nichtgesichtstypen, wobei die Gesichtstypen als Gesichtskandidaten dienen (514).
  7. Verfahren nach Anspruch 6, das weiterhin den Verfahrensschritt umfasst, das Anwenden einer Heuristik, wobei die genannte Heuristik die nachfolgenden Schritte umfasst: – das Anwenden eines morphologischen schließenden Vorgangs an jedem der genannten Gesichtskandidaten zum Erzeugen wenigstens eines geschlossenen Gesichtskandidaten; – das Ermitteln von Pixeln hoher Varianz in dem genannten geschlossenen Gesichtskandidaten; – das Ermitteln des Verhältnisses zwischen den genannten Pixeln hoher Varianz und der gesamten Anzahl Pixel in dem genannten geschlossenen Gesichtskandidaten; und – das Vergleichen des genannten Verhältnisses mit einer Schwelle.
  8. Verfahren nach Anspruch 6, wobei der genannte Entfernungsschritt Folgendes umfasst: – das Anwenden einer Maske auf eine Anzahl Pixel, einschließlich eines untersuchten Pixels; – das Ermitteln der Varianz zwischen dem genannten untersuchten Pixel und Pixeln innerhalb der genannten Maske; und – das Vergleichen der genannten Varianz mit einer Varianzschwelle.
  9. Verfahren nach Anspruch 8, wobei: – der genannte Entfernungsschritt zum Verringern der Varianzschwellen wiederholt wird, bis eine Größe der genannten binären Bildanteile unterhalb einer Größenschwelle des Anteils liegt; und – nach jedem Entfernungsschritt der genannte Schritt der Klassifizierung der genannten Anteile durchgeführt wird.
  10. Verfahren nach Anspruch 6, wobei die genannten binären Bildanteile verbunden werden.
  11. Verfahren nach Anspruch 6, wobei der genannte Schritt der Klassifizierung Folgendes umfasst: – das Bilden einer Begrenzungsbox um einen klassifizierten Anteil der genannten Anteile und das Durchführen wenigstens eines der nachfolgenden Vorgänge: – das Bilden einer Begrenzungsbox um einen klassifizierten Anteils der genannten Anteile; – das Vergleichen eines Gebietes der Begrenzungsbox mit einer Begrenzungsboxschwelle; – das Vergleichen eines Bildseitenverhältnisses der Begrenzungsbox mit einer Bildseitenverhältnisschwelle; – das Ermitteln eines Gebietsverhältnisses, wobei das genannte Gebietsverhältnis der Vergleich zwischen dem Gebiet des klassifizierten Anteils und dem Gebiet der genannten Begrenzungsbox ist, und das Vergleichen des genannten Gebietsverhältnisses mit einer Gebietsverhältnisschwelle; – das Ermitteln einer Orientierung längerer Objekte innerhalb der genannten Begrenzungsbox; und – das Ermitteln eines Abstandes zwischen einer Mitte der genannten Begrenzungsbox und einer Mitte des genannten klassifizierten Anteils.
  12. Verfahren nach Anspruch 6, wobei der genannte Schritt der Abbildung die nachfolgenden Verfahrensschritte umfasst: – das Darstellen jedes Anteils als ein Scheitelpunkt; – das Verbinden von Scheitelpunkte mit einer Kante, wenn nahe in dem Raum und ähnlich in der Farbe, wodurch die genannte wenigstens eine Graphik gebildet wird.
  13. Verfahren nach Anspruch 12, wobei jede Kante eine assoziierte Gewichtung hat und weiterhin die nachfolgenden Schritte umfasst: – das Extrahieren des minimalen aufspannenden Baums jeder Graphik; – das Klassifizieren der entsprechenden binären Bildanteile jeder Graphik als Gesicht oder Nichtgesicht; – das Entfernen der Kante in jeder Graphik mit der größten Gewichtung, wodurch zwei kleinere Graphiken gebildet werden; und – das Wiederholen des genannten Schrittes der Klassifizierung der entsprechenden binären Bildanteile für jede der genannten kleineren Graphiken, bis eine Begrenzungsbox um die genannten kleineren Graphiken kleiner ist als eine Graphikschwelle.
  14. Videokonferenzsystem, das Folgendes umfasst: – wenigstens eine Kamera mit Schwenk-, Tilt- und Zoomparametern (50); – wobei die genannten Parameter Werte haben, die entsprechenden Teilnehmern des genannten Videokonferenzsystems zugeordnet sind, wobei die Werte Voreinstellungen sind, wobei die genannten Voreinstellungen eine Kamerasicht definieren; – wenigstens Schwenkmittel zum Schwenken der genannten Kamera durch einen Raum, definiert durch das genannte Videokonferenzsystem, und Zoommittel zum Auszoomen der genannten Kamera um dadurch die Möglichkeit zu schaffen, den durch das genannte Videokonferenzsystem definierten Raum zu sehen; – Detektions- und Kennzeichnungsmittel zum Detektieren und Kennzeichnen von Teilnehmern zum Erhalten gekennzeichneter Teilnehmer in dem genannten Raum; und – Ermittlungsmittel zum Ermitteln von Voreinstellungen der genannten Kamera auf Basis einer Kameraposition, die einen der genannten gekennzeichneten Teilnehmer an die nachfolgenden Stellen platzieren möchte: (i) eine optimale Stelle, (ii) eine Stelle, wo ein Kopf des genannten gekennzeichneten Teilnehmers gegenüber einer Mitte der genannten Kamerasicht ausgerichtet ist, und (iii) eine Stelle, wo eine Mitte des genannten gekennzeichneten Teilnehmers gegenüber der genannten Mitte der genannten Kamerasicht ausgerichtet ist, – Mittel zum Aktualisieren der mit einem bestimmten gekennzeichneten Teilnehmer assoziierten Voreinstellungen, wenn die Stelle eines bestimmten gekennzeichneten Teilnehmers sich geändert hat, wobei die Aktualisierung kontinuierlich, periodisch ist oder wenn eine neue Voreinstellung selektiert wird.
  15. Videokonferenzsystem nach Anspruch 14, wobei die Mittel zum Aktualisieren wenigstens eine zweite Kamera zum Aktualisieren der genannten Voreinstellungen umfassen.
  16. Videokonferenzsystem nach Anspruch 14, das weiterhin Mittel aufweist zur Verfolgung der genannten Teilnehmer durch Assoziation eines Kennzeichens mit jedem der genannten Teilnehmer.
  17. Videokonferenzsystem nach Anspruch 14, wobei die Mittel zum Aktualisieren zum Aktualisieren der genannten Voreinstellungen vorgesehen sind, indem das genannte Videokonferenzsystem wenigstens eine Einstellung einer Voreinstellung durchführt, wenn diese Voreinstellung durch einen Benutzer gewählt wird, oder eine Voreinstellung löscht, wenn der Teilnehmer, der mit der Voreinstellung übereinstimmt, den genannten Raum verlässt, oder die genannte Kamera durch den genannten Raum schwenkt, oder aber die genannte Kamera durch den genannten Raum zoomt.
  18. Videokonferenzsystem nach Anspruch 14, wobei, wenn mehr als ein Teilnehmer sich in der Kamerasicht befindet, die Teilnehmer zu einem einzigen kombinierten Bild kombiniert werden und die Mitte des kombinierten Bildes zum Ermitteln der genannten Voreinstellungen benutzt wird.
  19. Videokonferenzsystem nach Anspruch 14, wobei die genannte Detektion Folgendes umfasst: – das Schaffen eines digitalen Bildes, bestehend aus einer Vielzahl von Pixeln (52); – das Erzeugen eines binären Bildes aus dem digitalen Bild durch Detektion hautfarbener Pixel (54); – das Entfernen von Pixeln, die mit Rändern in dem Leuchtdichteanteil des genannten binären Bildes übereinstimmen, wodurch binäre Bildanteile (56) erzeugt werden; – das Abbilden der genannten binären Bildanteile in wenigstens eine Graphik (512); und – das Klassifizieren der abgebildeten binären Bildanteile als Gesichts- und Nichtgesichtstyp, wobei die Gesichtstypen als Gesichtskandidaten dienen (514).
  20. Videokonferenzsystem nach Anspruch 15, wobei die wenigstens eine zweite Kamera zur Aktualisierung der genannten Voreinstellungen vorgesehen ist zum Durchführen wenigstens eines der Vorgänge Schwenken der genannten Kamera durch den genannten Raum, und Zoomen der genannten Kamera durch den genannten Raum.
DE69938173T 1998-12-22 1999-12-14 Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme Expired - Lifetime DE69938173T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/218,554 US7057636B1 (en) 1998-12-22 1998-12-22 Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
US218554 1998-12-22
PCT/EP1999/010066 WO2000038414A1 (en) 1998-12-22 1999-12-14 Automatic determination of preset positions corresponding to participants in video-conferences

Publications (2)

Publication Number Publication Date
DE69938173D1 DE69938173D1 (de) 2008-04-03
DE69938173T2 true DE69938173T2 (de) 2009-02-19

Family

ID=22815560

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69938173T Expired - Lifetime DE69938173T2 (de) 1998-12-22 1999-12-14 Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme

Country Status (8)

Country Link
US (1) US7057636B1 (de)
EP (1) EP1057326B1 (de)
JP (1) JP2002534009A (de)
KR (1) KR100699704B1 (de)
CN (1) CN1156151C (de)
DE (1) DE69938173T2 (de)
ES (1) ES2301256T3 (de)
WO (1) WO2000038414A1 (de)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60040051D1 (de) * 1999-12-03 2008-10-09 Fujinon Corp Automatische Folgevorrichtung
US7283788B1 (en) * 2000-07-26 2007-10-16 Posa John G Remote microphone teleconferencing configurations
US20020130955A1 (en) * 2001-01-12 2002-09-19 Daniel Pelletier Method and apparatus for determining camera movement control criteria
US6952224B2 (en) * 2001-03-30 2005-10-04 Intel Corporation Object trackability via parametric camera tuning
JP2002333652A (ja) * 2001-05-10 2002-11-22 Oki Electric Ind Co Ltd 撮影装置及び再生装置
US6611281B2 (en) 2001-11-13 2003-08-26 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
JP2003284053A (ja) * 2002-03-27 2003-10-03 Minolta Co Ltd 監視カメラシステムおよび監視カメラ制御装置
GB2395780A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
JP4218348B2 (ja) * 2003-01-17 2009-02-04 オムロン株式会社 撮影装置
JP4333150B2 (ja) * 2003-01-31 2009-09-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
JP4277534B2 (ja) * 2003-02-12 2009-06-10 オムロン株式会社 画像編集装置および画像編集方法
US20050117015A1 (en) * 2003-06-26 2005-06-02 Microsoft Corp. Foveated panoramic camera system
CN100448267C (zh) 2004-02-06 2008-12-31 株式会社尼康 数码相机
JP4593172B2 (ja) * 2004-05-25 2010-12-08 公立大学法人会津大学 カメラ制御装置
US7623156B2 (en) * 2004-07-16 2009-11-24 Polycom, Inc. Natural pan tilt zoom camera motion to preset camera positions
US7796827B2 (en) * 2004-11-30 2010-09-14 Hewlett-Packard Development Company, L.P. Face enhancement in a digital video
JP4770178B2 (ja) * 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
JP4824411B2 (ja) * 2005-01-20 2011-11-30 パナソニック株式会社 顔抽出装置、半導体集積回路
JP2007010898A (ja) * 2005-06-29 2007-01-18 Casio Comput Co Ltd 撮像装置及びそのプログラム
JP4412552B2 (ja) 2005-10-05 2010-02-10 富士フイルム株式会社 画像レイアウト装置および方法並びにプログラム
US8760485B2 (en) * 2006-03-02 2014-06-24 Cisco Technology, Inc. System and method for displaying participants in a videoconference between locations
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的***和方法
US20070250567A1 (en) * 2006-04-20 2007-10-25 Graham Philip R System and method for controlling a telepresence system
US7532232B2 (en) * 2006-04-20 2009-05-12 Cisco Technology, Inc. System and method for single action initiation of a video conference
US7679639B2 (en) * 2006-04-20 2010-03-16 Cisco Technology, Inc. System and method for enhancing eye gaze in a telepresence system
US7692680B2 (en) * 2006-04-20 2010-04-06 Cisco Technology, Inc. System and method for providing location specific sound in a telepresence system
US7707247B2 (en) * 2006-04-20 2010-04-27 Cisco Technology, Inc. System and method for displaying users in a visual conference between locations
US7710448B2 (en) 2006-04-20 2010-05-04 Cisco Technology, Inc. System and method for preventing movement in a telepresence system
JP4228010B2 (ja) * 2006-09-29 2009-02-25 Necエンジニアリング株式会社 テレビ会議装置
US8792005B2 (en) * 2006-11-29 2014-07-29 Honeywell International Inc. Method and system for automatically determining the camera field of view in a camera network
US8085290B2 (en) 2006-12-06 2011-12-27 Cisco Technology, Inc. System and method for displaying a videoconference
JP4845715B2 (ja) 2006-12-22 2011-12-28 キヤノン株式会社 画像処理方法、画像処理装置、プログラム、及び記憶媒体
JP3132386U (ja) * 2007-03-26 2007-06-07 株式会社三菱東京Ufj銀行 Tv会議用デジタルカメラ
US8203591B2 (en) * 2007-04-30 2012-06-19 Cisco Technology, Inc. Method and system for optimal balance and spatial consistency
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
EP2007141B1 (de) * 2007-06-20 2018-11-21 Provenance Asset Group LLC System und Verfahren zur Bereitstellung einer Videokonferenz
NO327899B1 (no) * 2007-07-13 2009-10-19 Tandberg Telecom As Fremgangsmate og system for automatisk kamerakontroll
JP5228407B2 (ja) * 2007-09-04 2013-07-03 ヤマハ株式会社 放収音装置
JP5034819B2 (ja) 2007-09-21 2012-09-26 ヤマハ株式会社 放収音装置
US8203593B2 (en) * 2007-12-28 2012-06-19 Motorola Solutions, Inc. Audio visual tracking with established environmental regions
US8379076B2 (en) * 2008-01-07 2013-02-19 Cisco Technology, Inc. System and method for displaying a multipoint videoconference
US8355041B2 (en) 2008-02-14 2013-01-15 Cisco Technology, Inc. Telepresence system for 360 degree video conferencing
US8797377B2 (en) * 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
KR101249737B1 (ko) * 2008-12-03 2013-04-03 한국전자통신연구원 움직이는 카메라 환경에서의 물체 추적 장치 및 그 방법
US8477175B2 (en) * 2009-03-09 2013-07-02 Cisco Technology, Inc. System and method for providing three dimensional imaging in a network environment
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
WO2010125489A1 (en) * 2009-04-29 2010-11-04 Koninklijke Philips Electronics N.V. Method of selecting an optimal viewing angle position for a camera
US20110119597A1 (en) * 2009-05-09 2011-05-19 Vivu, Inc. Method and apparatus for capability-based multimedia interactions
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8175335B2 (en) * 2009-06-17 2012-05-08 Sony Corporation Content adaptive detection of images with stand-out object
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US8350891B2 (en) 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
USD626103S1 (en) 2010-03-21 2010-10-26 Cisco Technology, Inc. Video unit with integrated features
USD626102S1 (en) 2010-03-21 2010-10-26 Cisco Tech Inc Video unit with integrated features
CN102244759A (zh) * 2010-05-12 2011-11-16 宇泰华科技股份有限公司 直觉式交谈方法
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US9723260B2 (en) * 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
US8446455B2 (en) 2010-12-08 2013-05-21 Cisco Technology, Inc. System and method for exchanging information in a video conference environment
US8553064B2 (en) 2010-12-08 2013-10-08 Cisco Technology, Inc. System and method for controlling video data to be rendered in a video conference environment
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
USD678320S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682864S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen with graphical user interface
USD678307S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678308S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682294S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682293S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US8957940B2 (en) 2013-03-11 2015-02-17 Cisco Technology, Inc. Utilizing a smart camera system for immersive telepresence
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
US9615053B2 (en) * 2014-01-10 2017-04-04 Revolve Robotics, Inc. Systems and methods for controlling robotic stands during videoconference operation
US10691398B2 (en) * 2014-09-30 2020-06-23 Accenture Global Services Limited Connected classroom
JP6761230B2 (ja) * 2015-08-21 2020-09-23 キヤノン株式会社 画像処理装置、その制御方法、プログラム及び撮像装置
US9756286B1 (en) 2016-08-05 2017-09-05 Microsoft Technology Licensing, Llc Communication event
JP2021052325A (ja) * 2019-09-25 2021-04-01 キヤノン株式会社 撮像装置、システム、撮像装置の制御方法、プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05196425A (ja) * 1992-01-21 1993-08-06 Ezel Inc 人間の3次元位置検出方法
JP3298072B2 (ja) * 1992-07-10 2002-07-02 ソニー株式会社 ビデオカメラシステム
US5742329A (en) * 1992-10-26 1998-04-21 Canon Kabushiki Kaisha Image pickup system and communication system for use in video conference system or the like
EP0724809A1 (de) 1993-10-20 1996-08-07 Videoconferencing Systems, Inc. Adaptives videokonferenzsystem
US5508734A (en) 1994-07-27 1996-04-16 International Business Machines Corporation Method and apparatus for hemispheric imaging which emphasizes peripheral content
DE19511713A1 (de) 1995-03-30 1996-10-10 C Vis Computer Vision Und Auto Verfahren und Vorrichtung zur automatischen Bildaufnahme von Gesichtern
US5959667A (en) * 1996-05-09 1999-09-28 Vtel Corporation Voice activated camera preset selection system and method of operation
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
US6343141B1 (en) * 1996-10-08 2002-01-29 Lucent Technologies Inc. Skin area detection for video image systems
US6072522A (en) * 1997-06-04 2000-06-06 Cgc Designs Video conferencing apparatus for group video conferencing
JPH1139469A (ja) * 1997-07-24 1999-02-12 Mitsubishi Electric Corp 顔画像処理装置
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
US6275614B1 (en) * 1998-06-26 2001-08-14 Sarnoff Corporation Method and apparatus for block classification and adaptive bit allocation
US6263113B1 (en) * 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image

Also Published As

Publication number Publication date
WO2000038414A1 (en) 2000-06-29
JP2002534009A (ja) 2002-10-08
KR20010041177A (ko) 2001-05-15
EP1057326B1 (de) 2008-02-20
CN1298601A (zh) 2001-06-06
DE69938173D1 (de) 2008-04-03
KR100699704B1 (ko) 2007-03-27
EP1057326A1 (de) 2000-12-06
CN1156151C (zh) 2004-06-30
ES2301256T3 (es) 2008-06-16
US7057636B1 (en) 2006-06-06

Similar Documents

Publication Publication Date Title
DE69938173T2 (de) Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme
DE112005000929B4 (de) Automatisches Abbildungsverfahren und Vorrichtung
DE69837233T2 (de) Verfahren und Gerät zur Bestimmung der Augenposition in einem Bild
DE69107267T2 (de) Verfahren und vorrichtung zur modifizierung einer zone sukzessiver bilder.
DE69333094T2 (de) Vorrichtung zum Extrahieren von Merkmalen eines Gesichtsbildes
DE69906403T2 (de) Verfahren und Gerät zum Detektieren eines gesichtsähnlichen Gebiets
DE19837004C1 (de) Verfahren zum Erkennen von Objekten in digitalisierten Abbildungen
DE69032326T2 (de) Dynamisches verfahren um gegenstände zu erkennen und bildverarbeitungsgerät dafür
DE69930986T2 (de) Hochauflösende Kamera
DE60111851T2 (de) Videobildsegmentierungsverfahren unter verwendung von elementären objekten
DE69922752T2 (de) Verfahren zum Detektieren eines menschlichen Gesichtes
DE69433373T2 (de) Methode und Gerät zum Bildsuchen
DE602004002180T2 (de) Objekterkennung
DE102004051159B4 (de) Gesichts-Identifizierungsvorrichtung, Gesicht-Identifizierungsverfahren und Gesicht-Identifizierungsprogramm
DE602004002837T2 (de) Objekterkennung
DE3736932A1 (de) Verfahren und anordnung fuer brillengestell-bildverarbeitung und -registrierung
DE69738287T2 (de) Verfahren zum Anzeigen eines sich bewegenden Objekts, dessen Bahn zu identifizieren ist, Anzeigesystem unter Verwendung dieses Verfahrens und Programmaufzeichnungsmedium dafür
DE19825302A1 (de) System zur Einrichtung einer dreidimensionalen Abfallmatte, welche eine vereinfachte Einstellung räumlicher Beziehungen zwischen realen und virtuellen Szeneelementen ermöglicht
DE19955714A1 (de) Verfahren und Vorrichtung zum Fotografieren/Erkennen eines Gesichts
WO2017153354A1 (de) Verfahren und vorrichtung zum bewerten von blickabbildungen
DE112016002564T5 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und programm
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE10250781B4 (de) Verfahren und Vorrichtung zur automatischen Segmentierung eines Vordergrundobjektes in einem Bild
EP1105843B1 (de) Verfahren und vorrichtung zur erfassung von objektfarben
DE10313019A1 (de) Einhandbedienung von Endgeräten per Gestikerkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition