ES2301256T3 - Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. - Google Patents

Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. Download PDF

Info

Publication number
ES2301256T3
ES2301256T3 ES99964595T ES99964595T ES2301256T3 ES 2301256 T3 ES2301256 T3 ES 2301256T3 ES 99964595 T ES99964595 T ES 99964595T ES 99964595 T ES99964595 T ES 99964595T ES 2301256 T3 ES2301256 T3 ES 2301256T3
Authority
ES
Spain
Prior art keywords
camera
participants
participant
presets
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99964595T
Other languages
English (en)
Inventor
Eric Cohen-Solal
Adrian P. Martel
Soumitra Sengupta
Hugo Strubbe
Jorge Caviedes
Mohamed Abdel-Mottaleb
Ahmed Elgammal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2301256T3 publication Critical patent/ES2301256T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/78Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
    • G01S3/782Systems for determining direction or deviation from predetermined direction
    • G01S3/785Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
    • G01S3/786Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
    • G01S3/7864T.V. type tracking systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

Procedimiento de cálculo de preajustes de parámetros de la cámara correspondientes a participantes (Part A, Part B, Part C) en un sistema de videoconferencia, comprendiendo dicho procedimiento: - proporcionar una cámara que tenga parámetros (50) de giro, inclinación y zoom; - definir un espacio basándose en una distribución de dicho sistema de videoconferencia; realizando uno de - mover dicha cámara a través de todos los valores de giro pertinentes, definiéndose dichos valores de giro pertinentes por dicho espacio en el que está ubicado dicho sistema de videoconferencia, y - hacer un zoom de alejamiento en dicha cámara de tal modo que pueda verse a todos los posibles participantes mediante dicha cámara y de tal modo que pueda determinarse una ubicación de cada participante en dicho espacio; - detectar y etiquetar dichos participantes para obtener participantes etiquetados dentro de dicho espacio; - calcular dichos preajustes correspondientes a dichos participantes etiquetados, definiendo dichos preajustes una vista de la cámara, basándose dichos preajustes en al menos una de: (i) una posición óptima de dichos participantes etiquetados en dicha vista de la cámara, (ii) una alineación del centro de una cabeza de dichos participantes etiquetados con un centro de dicha vista de la cámara, y (iii) una alineación de un centro de un participante etiquetado con dicho centro de dicha vista de la cámara; y - actualizar los preajustes asociados con un participante etiquetado particular si ha cambiando una ubicación del participante etiquetado particular, siendo la actualización continua, periódica, o cuando se selecciona un nuevo preajuste.

Description

Determinación automática de posiciones de preajustadas correspondientes a participantes de videoconferencias.
Esta invención se refiere al campo de tecnología de videoconferencia y específicamente a un procedimiento para determinar automáticamente los parámetros de giro, inclinación y zoom apropiados de una cámara que corresponden a vistas deseadas de participantes en un escenario de videoconferencia.
Durante una videoconferencia es necesario saber los parámetros de la cámara apropiados para cada participante de modo que la vista de la cámara pueda cambiar rápidamente de un participante a otro. Estos parámetros incluyen el zoom, el giro y la inclinación apropiados de la cámara, y se denominarán colectivamente como "parámetros" de la cámara siendo los valores de estos parámetros asociados con cada participante los "preajustes". Mientras tiene lugar la conferencia, los usuarios requieren la capacidad de poder ver a diferentes participantes rápidamente; cambiando frecuentemente de un participante a otro en un breve periodo de tiempo.
Dispositivos de la técnica anterior requieren que un usuario ajuste manualmente los parámetros de la cámara para cada participante implicado en la videoconferencia. Cada cámara que se utiliza enfoca a un participante y se acciona un conmutador de preajuste. Por ejemplo, si hay tres personas en la conferencia, el conmutador 1 se utiliza para representar los parámetros de la cámara apropiados para el participante 1; el conmutador 2 para el participante 2; y el conmutador 3 para el participante 3. Cuando un usuario desea conmutar la vista entre el participante 1 y el 2, sólo necesita activar el conmutador 2 y la cámara se mueve y enfoca en consecuencia. Sin embargo, ajustar una cámara para cada participante es frecuentemente un proceso tedioso que requiere dedicación de tiempo por parte del usuario u operador de cámara. Adicionalmente, cada vez que un participante abandona o entra en la sala, los preajustes tienen que reajustarse en consecuencia. Si un participante simplemente se mueve de su ubicación original, los ajustes de la cámara originales ya no se aplicarán. Claramente este es un problema si un participante se mueve de una ubicación a otra dentro de la sala. Sin embargo, incluso si el participante se mueve dentro de su propia silla (es decir, hacia delante, hacia atrás, se inclina hacia un lado, etc.) los parámetros pueden cambiar y ese participante puede ya no estar enfocado, en el centro de la vista de la cámara, o del tamaño deseado con respecto a la vista de la cámara.
En la patente estadounidense 5.598.209, un usuario puede apuntar a un objeto o persona que desea ver y el sistema almacena automáticamente los parámetros de giro e inclinación de la cámara que se refieren al centro de ese objeto. Sin embargo, todos los objetos o personales en la sala tienen que seleccionarse y almacenarse con afirmación bajo el control de un usuario, lo que de nuevo lleva tiempo. Tampoco se proporciona actualizar los parámetros cuando un participante abandona o entra en la sala.
La capacidad de determinar automáticamente posiciones de preajuste es útil también en una distribución de congreso. En general, en estos tipos de salas, los preajustes de la cámara se basan en el micrófono que se utiliza para cada individuo. Cuando un participante enciende su micrófono, se utilizan los preajustes de la cámara que se refieren a la posición de ese micrófono. Esto es problemático porque si el micrófono no funciona o si otro hablante utiliza un micrófono particular, podría no tener lugar la correlación apropiada entre el hablante y la vista de la cámara.
Por lo tanto, existe una necesidad de un sistema de videoconferencia que determine automáticamente los parámetros de la cámara apropiados para todos los participantes y que también pueda autoajustarse cuando los participantes entran en y abandonan la sala. El objetivo de una videoconferencia es la conversación y comunicación eficaces. Si un usuario tiene que reajustar continuamente el sistema para inicializar o actualizar los parámetros de preajuste, se frustra este objetivo. La dinámica de conversación entre los usuarios finales es diferente de la de una producción (como en un programa de televisión). Para facilitar esta dinámica, es deseable automatizar tanto del sistema como sea posible sin recurrir a una vista de zoom de alejamiento estática que proporcionaría comunicación menos significativa.
Un aspecto de la invención es un procedimiento de cálculo de preajustes de los parámetros de la cámara correspondientes a participantes en un sistema de videoconferencia. El procedimiento incluye proporcionar una cámara que tenga parámetros de giro, inclinación y zoom, y definir un espacio basándose en una distribución del sistema de videoconferencia. El procedimiento incluye además realizar uno de mover la cámara a través de todos los valores de giro pertinentes, definiéndose los valores de giro pertinentes por el espacio en el que está ubicado el sistema de videoconferencia, y hacer un zoom de alejamiento en la cámara de tal modo que pueda verse a todos los posibles participantes mediante la cámara y de tal modo que pueda determinarse una ubicación de cada participante en el espacio. El procedimiento prevé además detectar los participantes dentro del espacio y detectar los preajustes correspondientes a los participantes, definiendo los preajustes una vista de la cámara, basándose los preajustes en al menos una de una posición óptima de los participantes en la vista de la cámara, una alineación del centro de una cabeza de los participantes con un centro de la vista de la cámara, y una alineación de un centro de un participante con el centro de la vista de la cámara.
Este aspecto, como los siguientes, permite la detección y actualización automáticas de parámetros de la cámara correspondientes a participantes en una videoconferencia.
Según otro aspecto de la invención, un sistema de videoconferencia incluye al menos una cámara que tiene parámetros de giro, inclinación y zoom. Los parámetros tienen valores de preajuste asignados a participantes correspondientes del sistema de videoconferencia. Cada uno de los preajustes define una vista de la cámara y se determinan mediante: uno de realizar un movimiento panorámico y hacer zoom en la cámara por todo un espacio definido por el sistema de videoconferencia, detectar un participante, y definir un preajuste basándose en una posición de la cámara que colocaría al participante en una de una posición óptima, una posición en la que una cabeza del participante está en alineación con un centro de la vista de la cámara, y una posición en la que un centro del participante está alineado con el centro de la vista de la cámara.
Según aún otro aspecto de la invención, un sistema de videoconferencia comprende al menos una cámara que tiene parámetros de giro, inclinación y zoom. Los parámetros tienen valores de preajuste asignados a participantes correspondientes del sistema de videoconferencia; definiendo los preajustes una vista de la cámara. El sistema incluye además al menos uno de medios de giro para que la cámara realice un movimiento panorámico por todo un espacio definido por el sistema de videoconferencia, y medios de zoom para hacer zoom de alejamiento en la cámara para permitir de ese modo que la cámara vea el espacio definido por el sistema de videoconferencia. Se utilizan medios de detección para detectar a los participantes en el espacio. Se utilizan medios de determinación para determinar los preajustes de la cámara basándose en una posición de la cámara que colocaría a uno de los participantes en una de una posición óptima, una posición en la que una cabeza del participante está en alineación con un centro de dicha vista de la cámara, y una posición en la que un centro del participante está alineado con el centro de la vista de la cámara.
Es un objeto de la invención proporcionar un sistema y procedimiento de videoconferencia que pueda determinar automáticamente los preajustes de los parámetros de la cámara que se refieren a las vistas apropiadas de los participantes.
Es otro objeto de la invención proporcionar un sistema y procedimiento de videoconferencia que pueda actualizar continuamente preajustes de la cámara según los cambios en el número y ubicación de los participantes.
Estos objetos, así como otros, serán más evidentes a partir de la siguiente descripción leída en conjunción con los dibujos adjuntos, en los que se prevé que números de referencia iguales designen los mismos elementos.
Las figuras 1A, 1B y 1C son diagramas de distribuciones de sala, congreso y mesa respectivamente de un sistema de videoconferencia según la invención;
las figuras 2A, 2B y 2C son diagramas que muestran a un participante entrando en una vista de la cámara cuando la cámara realiza un movimiento panorámico en una sala en un sistema de videoconferencia según la invención;
la figura 3 es un modelo en perspectiva de una cámara utilizada en la invención;
la figura 4 es un diagrama que muestra a los participantes en una videoconferencia con preajustes temporales respectivos indicados;
la figura 5 es un diagrama que muestra el centro de un participante desplazado del centro de la vista de la cámara de ese participante;
la figura 6 es un diagrama que muestra a los participantes en una videoconferencia con preajustes actualizados respectivos indicados;
la figura 7 es un diagrama que muestra una realización alternativa de la invención que utiliza dos cámaras;
la figura 8 es un diagrama de un sistema de coordenadas cilíndricas utilizado para colores de representación de píxeles en las imágenes;
la figura 9 son tres gráficos que representan proyecciones del espacio de color YUV que indican las zonas en las que se encuentras los píxeles del color de la piel;
las figuras 10A a 10F son imágenes originales e imágenes binarias respectivas que se forman separando los píxeles basándose en el color;
la figura 11 es un diagrama que ilustra cómo se utiliza una máscara 3x3 como parte de la detección de la variación de luminancia según la invención;
las figuras 12A y 12B son diagramas que ilustran conectividad de tipo 4 y 8 respectivamente;
las figuras 13A y 13B son imágenes que muestran cómo aparecería la imagen de las figuras 3C y 3E después de que se eliminen los bordes según la invención;
la figura 14 es una imagen que muestra ejemplos de cuadros delimitadores aplicados a la imagen de la figura 3F;
la figura 15 es una secuencia de diagramas que muestra cómo se representan los componentes de una imagen por vértices y se conectan para formar un gráfico según la invención;
las figuras 16A a 16D son una secuencia de imágenes que ilustran la aplicación de una heurística según la invención; y
la figura 17 es un diagrama de flujo que detalla las etapas generales implicadas en la detección de caras.
En la figura 1A, se muestra un sistema de videoconferencia en el que los participantes están sentados alrededor de una mesa. La figura 1B muestra los participantes en una distribución de estilo congreso. Un cámara 50 se controla mediante un controlador 52 para realizar un movimiento panorámico desde un lado de la sala al otro. Claramente, el movimiento panorámico puede comenzar y terminar en el mismo lugar. Por ejemplo, tal como se muestra en la figura 1C, la cámara 50 podría disponerse en el medio de una sala con los participantes ubicados todos alrededor de la misma. En este tipo de situación, la cámara 50 giraría complemente en un círculo con el fin de realizar un movimiento panorámico completo en toda la sala. En la distribución de congreso mostrada en la figura 1B, la cámara 50 podría realizar múltiples trayectorias panorámicas para cubrir las diferentes filas. Cada una de estas trayectorias tendría una inclinación diferente y probablemente un zoom diferente (aunque el zoom puede ser el mismo si los participantes están colocados directamente unos por encima de otros a sustancialmente la misma distancia radial desde la cámara). De nuevo, en la distribución de congreso, la cámara 50 podría disponerse en el centro de la sala y entonces el movimiento panorámico puede requerir un giro completo tal como se muestra en la figura 1C.
Para mayor simplicidad, ahora se describirá adicionalmente la distribución mostrada en la figura 1A aunque debería ser evidente que se aplicarían las mismas ideas a todas las distribuciones mencionadas y también a otras distribuciones evidentes para los expertos en la técnica. La invención funcionará para cualquier espacio definido por la ajustabilidad del sistema de videoconferencia. Se muestran tres participantes (Part_{A}, Part_{B}, Part_{C}) pero, de nuevo, podrían implicarse más participantes.
Cuando la cámara 50 realiza un movimiento panorámico desde un lado de la sala al otro, los participantes parecerán moverse por y a través de la vista de la cámara. Tal como se muestra en las figuras 2A a 2C, un participante aparece en diferentes partes de la vista de la cámara dependiendo de la posición de giro de la cámara. Tal como puede distinguirse también a partir de la figura, para tres posiciones de giro diferentes (P1, P2, P3) la inclinación (T) y el zoom (Z) permanecen iguales. También es posible que durante la exploración de la cámara inicial, pudiera moverse uno de los otros parámetros (es decir, la inclinación o el zoom) a través de un intervalo apropiado mientras que los dos parámetros restantes se mantienen constantes. Otra posibilidad es si la cámara 50 tiene su ajuste de parámetro de zoom de tal modo que pudiera verse de una vez toda la sala (suponiendo que puede recogerse suficiente información para determinar la posición de participantes estacionarios tal como se da a conocer posteriormente de manera más clara). De nuevo, para mayor simplicidad, se describirá la idea de realizar un movimiento panorámico con la cámara pero debería ser evidente que las otras sugerencias podrían implementarse con cambios apropiados que estarían claros para los expertos en la técnica.
Durante el inicio de la realización de un movimiento panorámico, cada fotograma que procesa la cámara se analiza para determinar si un participante está dispuesto dentro del fotograma. Un procedimiento para realizar esta determinación se detalla posteriormente en la sección de detección de participantes. Claramente, podrían implementarse otros procedimientos. Para cada participante que se detecta, una cámara que realiza un movimiento panorámico detectará una multiplicidad de fotogramas que incluirían a ese participante. Por ejemplo, si una cámara procesa mil fotogramas para una sala, éste podría interpretarse como que son mil participantes, si se muestra un participante en cada fotograma.
Para evitar este problema de multiplicar el número real de participantes, se etiqueta cada participante detectado. Se calcula el centro de masas para cada participante detectado para cada fotograma procesado. Entonces, se compara un segundo fotograma, sucesivo que contiene participantes potenciales con el primer fotograma, anterior para ver si la cámara está viendo a un nuevo participante o sólo otro fotograma que incluye al mismo participante. Un procedimiento para llevar a cabo esta comparación es realizar una extrapolación geométrica basada en el primer centro y la cantidad que la cámara se ha movido desde la primera posición. Esto mostraría aproximadamente dónde debería estar el centro si el segundo fotograma contiene al mismo participante que el primer fotograma. De manera similar, se calcularía el centro de masas del segundo fotograma y luego se compararía con el primer centro junto con el movimiento conocido de la cámara entre la posición en la que se ve el primer fotograma y la posición en la que se ve el segundo fotograma. Como alternativa, podría crearse una signatura para cada participante detectado y entonces podrían compararse las signaturas de los participantes en fotogramas sucesivos con esa signatura inicial. Las signaturas se conocen en la técnica. Algunos ejemplos de técnicas de signatura se tratan posteriormente en la sección de identificación de participantes y de actualización de posición. Una vez que se determina que la imagen de un participante está dispuesta dentro de un fotograma, pueden calcularse preajustes temporales.
En referencia a la figura 3, se muestra un modelo en perspectiva de una cámara. Un sensor 56 de la cámara tiene un punto principal PP que tiene una coordenada x e y PPx y PPy respectivamente. Una lente 58 tiene un centro que está dispuesto a una longitud focal f del punto principal PP. Un cambio en el zoom de la cámara se lleva a cabo mediante un cambio en la distancia focal f. Una f más corta significa una vista amplia ("alejamiento de zoom"). Un cambio en el parámetro de giro es efectivamente un giro del sensor alrededor del eje de giro. Un cambio en el parámetro de inclinación es un giro del sensor alrededor del eje de inclinación.
Cuando un objeto o participante 62 entra en el campo de visión de la cámara, puede determinarse la ubicación de ese participante en el espacio utilizando procedimientos convencionales si están disponibles dos fotogramas que contienen a ese participante. Esto es porque se conoce la ubicación del punto principal PP (no mostrado en 60) y el enfoque f. Cuando la cámara 50 realiza un movimiento panorámico en una sala, adquiere múltiples fotogramas que contienen participantes y así puede determinarse la ubicación de cada participante en el espacio. Si la cámara está haciendo un zoom de alejamiento en lugar de un movimiento panorámico, pueden necesitarse dos mediciones distintas para determinar la ubicación. Una vez que se conoce la ubicación de un participante, puede calcularse el preajuste temporal mediante un procesador 54 (figuras 1A a 1C).
Para calcular el preajuste temporal, se determina el centro de un participante, tal como anteriormente para el etiquetado de participantes, utilizando técnicas conocidas. Por ejemplo, puede calcularse la media del contorno del participante y su centro de masas. El punto central se coloca entonces en el centro de la vista de la cámara para producir, por ejemplo, los preajustes Psa, Tsa y Zsa para el Part_{A} de la figura 1. Estos procesos de realización de un movimiento panorámico y cálculo de preajustes se repiten para todos los participantes en la sala y, en consecuencia, también determina cuántos participantes hay inicialmente en la sala. Esto se realiza durante una parte de iniciación de la conferencia y puede repetirse posteriormente durante una rutina de actualización tal como se describe posteriormente de manera más completa.
Una vez que todos los participantes en la sala están etiquetados y se calculan todos los parámetros temporales tal como se muestra en la figura 4, la cámara 50 realiza un segundo movimiento panorámico (o zoom de alejamiento) en la sala. Cada vista de preajuste se perfecciona adicionalmente porque la calibración realizada en la fase de realización de movimiento panorámico inicial no será en general lo suficientemente precisa.
Tal como se muestra en la figura 5, el centro de la vista de la cámara se compara con el centro de la cabeza de cada participante respectivo. Los parámetros se ajustan de tal modo que en la vista de la cámara, se alinean los centros. Una vez que se perfecciona el preajuste, se calcula el preajuste correspondiente a una vista "óptima" de cada participante. Esto puede ser diferente dependiendo de las culturas sociales. Por ejemplo, la cabeza y torso de un participante puede ocupar cualquier lugar del 30 al 60% de todo el fotograma, tal como en un programa de noticias en Estados Unidos. La vista óptima produce preajustes actualizados Psn', Tsn' y Zsn' tal como se muestra en la figura 6. Estos valores se actualizan continuamente dependiendo de cómo se estructure el sistema y cómo deben realizarse las actualizaciones tal como se explica posteriormente. Si una cámara está mirando a un participante y ese participante se mueve, se calcularía la nueva posición óptima y el preajuste de la cámara se ajustará continuamente en consecuencia.
La cámara puede enfocar a participantes basándose en seguimiento de audio, seguimiento de vídeo, una selección realizada por un usuario, o mediante cualquier otra técnica conocida en la técnica. El seguimiento de audio por sí solo está limitado porque disminuye en precisión a medida que las personas se alejan y no puede utilizarse por sí mismo porque generalmente tiene un error de 4 a 5 grados y no puede haber seguimiento cuando un participante para de hablar.
Puede asociarse un nombre con cada participante una vez que se detecta. Por ejemplo, los tres participantes de la figura 1 podrían identificarse como A, B y C de tal modo que un usuario podría simplemente indicar que desea ver al participante A y la cámara se moverá al preajuste optimizado para A. Adicionalmente, el sistema podría programarse para aprender algo específico sobre cada participante y por tanto etiquetar a ese participante. Por ejemplo, podría crearse una signatura para cada participante, el color de la camiseta de la persona, podría tomarse un patrón de voz, o podría utilizarse una combinación de la cara y la voz para formar la etiqueta asociada con un participante. Con esta información adicional, si el participante A se mueve por la sala, el sistema sabrá qué participante está moviéndose y no estará confundido porque el participante A ande a través de la vista correspondiente a parámetros para el participante B. Además, si dos participantes están ubicados lo suficientemente próximos el uno al otro de tal modo que comparten una vista de la cámara, los dos participantes pueden considerarse como un participante con la cámara enfocando al centro de la combinación de sus imágenes.
Tal como se expuso anteriormente, un beneficio de este sistema es que permite que se ajusten automáticamente los preajustes cuando cambia la dinámica de los participantes de la sala. Claramente, si se selecciona un preajuste y el participante correspondiente ha abandonado la sala, el sistema lo detectará y actualizará los preajustes. Otro procedimiento de actualización es que cada vez que se selecciona un nuevo preajuste, la cámara 50 hará un zoom de alejamiento (o un movimiento panorámico en la sala) para ver si alguien ha entrado en o ha abandonado la sala y actualizará los preajustes antes de que la cámara 50 se mueva al preajuste seleccionado. La cámara 50 podría controlarse periódicamente, incluso mientras se le ordena ver a un participante seleccionado, detener temporalmente la visión de ese participante, y realizar un movimiento panorámico en la sala o zoom de alejamiento para ver si el número de participantes ha cambiado. Otra técnica es reconocer que un participante no está donde debería estar. Por ejemplo, si se le dice a la cámara 50 que se mueva desde el preajuste para el participante C al participante A por ejemplo (figura 1), si el participante B ha abandonado la sala, el sistema podría aprenderlo y realizar los ajustes apropiados. Aún otra técnica de actualización implica que la cámara 50 realice un movimiento panorámico a través de la sala (o zoom de alejamiento) o bien periódicamente o bien cada vez que se selecciona un nuevo preajuste.
En referencia a la figura 7, se muestra una segunda realización. Esta realización muestra las mismas características que las de la figura 1A excepto que se añade una segunda cámara 64. La calibración inicial se realiza de la misma manera que se describió anteriormente. Sin embargo, durante la conferencia, se utiliza una cámara para enfocar al participante pertinente mientras que la otra se utiliza para actualizar continuamente los preajustes. La cámara de actualización puede estar continuamente en un zoom de alejamiento de tal modo que pueda determinar cuándo un participante abandona o entra en la sala. Como alternativa, la cámara de actualización podría realizar continuamente un movimiento panorámico en la sala y realizar las actualizaciones apropiadas para los preajustes. Las dos cámaras comparten la información de preajustes a través, por ejemplo, de un procesador 54. Claramente, podrían utilizarse más cámaras. Por ejemplo, podría asignarse una cámara a cada individuo que se planee que esté en la reunión y entonces podría utilizarse una cámara adicional como la cámara de actualización.
Una manera de determinar si un participante está ubicado dentro de una vista de la cámara es determinar si hay una cara dispuesta dentro de la imagen que se ve mediante la cámara. Cada píxel en una imagen se representa generalmente en el espacio de color HSV (tonalidad, saturación, valor). Estos valores se mapean sobre un sistema de coordenadas cilíndricas tal como se muestra en la figura 8, donde P es un valor (o luminancia), \theta es la tonalidad, y r es la saturación. Debido a la no linealidad de sistemas de coordenadas cilíndricas, se utilizan otros espacios de color para aproximar el espacio HSV. En la presente solicitud, se utiliza el espacio de color YUV porque la mayoría del material de vídeo almacenado en un medio magnético y el estándar MPEG2 utilizan ambos este espacio de color.
Transformar una imagen RGB al espacio YUV, y proyectar además en los planos VU, VY y VU, produce gráficos como los mostrados en la figura 9. Los segmentos de círculo representan la aproximación del espacio HSV. Cuando se representan los píxeles correspondientes al color de la piel en el espacio YUV, caen generalmente en esos segmentos de círculo mostrados. Por ejemplo, cuando la luminancia de un píxel tiene un valor entre 0 y 200, la crominancia U tiene generalmente un valor entre -100 y 0 para un píxel del color de la piel. Estos son valores generales basados en la experimentación. Claramente, podría realizarse una operación de entrenamiento de color para cada cámara que se utiliza. Los resultados de ese entrenamiento se utilizarían entonces para producir segmentos del color de la piel más precisos.
Para detectar una cara, se examina cada píxel en una imagen para distinguir si es del color de la piel. Aquellos píxeles que son del color de la piel se agrupan respecto al resto de la imagen y por tanto se quedan como candidatos a cara potenciales. Si al menos una proyección de un píxel no cae dentro de los límites del segmento de agrupamiento de la piel, se considera que el píxel no es del color de la piel y se excluye de la consideración como un candidato a cara potencial.
La imagen resultante formada por la detección del color de la piel es binaria porque muestra o bien partes de la imagen que son del color de la piel o bien partes que no son del color de la piel tal como se muestra en las figuras 10B, 10 D y 10F que corresponden a las imágenes originales en las figuras 10A, 10C y 10E. En las figuras, se muestra blanco para el color de la piel y negro para el color que no es de la piel. Tal como se muestra en las figuras 10A y 10 B, esta etapa de detección por sí sola puede descartar que grandes partes de la imagen tengan una cara dispuesta dentro de la misma. Técnicas de la técnica anterior que utilizan el color y la forma pueden funcionar por tanto para fondos sencillos tales como el mostrado en la figura 10A. Sin embargo, mirando a las figuras 10C y 10D y a las figuras 10E y 10F, está claro que la detección por sólo color y forma puede no ser suficiente para detectar las caras. En las figuras 10C a 10F, objetos en el fondo como cuero, madera, ropas, y pelo, tienen colores similares a la piel. Tal como puede verse en las figuras 10D y 10F, estos objetos del color de la piel están dispuestos inmediatamente adyacentes a la piel de las caras y por tanto las propias caras son difíciles de detectar.
Después de que los píxeles se separan por color, los píxeles ubicados en los bordes se excluyen de la consideración. Un borde es un cambio en el nivel de brillo de un píxel al siguiente. La eliminación se lleva a cabo tomando cada píxel del color de la piel y calculando la varianza en los píxeles alrededor del mismo en la componente de luminancia; siendo indicativa una alta varianza de un borde. Tal como se muestra en la figura 11, se coloca un cuadro ("ventana") del tamaño o bien de 3x3 o bien de 5x5 píxeles, en la parte superior de un píxel del color de la piel. Claramente, podrían utilizarse otras máscaras además de un cuadro cuadrado. La varianza se define como
\frac{1}{n}\sum\limits^{n}_{i=l}(x_{i} - \mu_{x})^{2}
donde \overline{a}_{x} es la media de todos los píxeles en la ventana examinada. Un nivel de varianza "alto" será diferente dependiendo de la cara y la cámara utilizada. Por lo tanto, se utiliza una rutina iterativa empezando con un nivel de varianza muy alto y bajando hasta un nivel de varianza bajo.
En cada etapa de la iteración de varianza, se excluyen de la consideración facial los píxeles si la varianza en una ventana alrededor del píxel del color de la piel es superior al umbral de varianza que se prueba para esa iteración. Después de que se examinan todos los píxeles en una iteración, se examinan las componentes conectadas resultantes en busca de características faciales tal como se describe posteriormente de manera más completa. Las componentes conectadas son píxeles que son del mismo valor binario (blancos para color facial) y están conectadas. La conectividad puede ser conectividad o de tipo 4 u 8. Tal como se muestra en la figura 12A, para conectividad de tipo 4, el píxel central se considera "conectado" a sólo los píxeles directamente adyacentes al mismo tal como se indica mediante el "1" en los cuadros adyacentes. En conectividad de tipo 8, tal como se muestra en la figura 12B, los píxeles que tocan diagonalmente el píxel central también se consideran que están "conectados" a ese píxel.
Tal como se expuso anteriormente, después de cada iteración, se examinan las componentes conectadas en una etapa de clasificación de componentes para ver si podrían ser una cara. Este examen implica estudiar 5 criterios distintos basándose en un cuadro delimitador dibujado alrededor de cada componente conectada resultante; ejemplos de lo cual se muestran en la figura 14 basada en la imagen de la figura 10E. Los criterios son:
1. El área del cuadro delimitador comparado con un umbral. Esto reconoce el hecho de que una cara no será en general muy grande o muy pequeña.
2. La relación de aspecto (altura comparada con el ancho) del cuadro delimitador comparada con un umbral. Esto reconoce que las caras humanas caen generalmente en un intervalo de relaciones de aspecto.
3. La relación del área de píxeles del color de la piel detectados con el área del cuadro delimitador, comparada con un umbral. Este criterio reconoce el hecho de que el área cubierta por una cara humana caerá en un intervalo de porcentajes del área del cuadro delimitador.
4. La orientación de objetos alargados dentro del cuadro delimitador. Hay muchas maneras conocidas de determinar la orientación de una serie de píxeles. Por ejemplo, puede determinarse el eje medio y puede encontrarse la orientación a partir de ese eje. En general, las caras no están giradas significativamente alrededor del eje ("eje-z") que es perpendicular al plano que tiene la imagen y por tanto las componentes con objetos alargados que están giradas con respecto al eje z se excluyen de la consideración.
5. La distancia entre el centro del cuadro delimitador y el centro de masas de la componente que se examina. En general, las caras están ubicadas dentro del centro del cuadro delimitador y no estarán, por ejemplo, ubicadas totalmente a un lado.
Se continúan las iteraciones para la varianza descomponiendo de ese modo la imagen en componentes más pequeñas hasta que el tamaño de las componentes es inferior a un umbral. Las imágenes de las figuras 10C y 10E se muestran transformadas en las figuras 13A y 13B respectivamente después del proceso de iteración de varianza. Tal como puede distinguirse, las caras en la imagen se separaron de las zonas del color de la piel no faciales en el fondo como resultado de la iteración de variación. Frecuentemente, esto provoca que la zona con color de la piel detectado se fragmente como se muestra a modo de ejemplo en la figura 13B. Esto tiene lugar porque o bien hay objetos que ocultan partes de la cara (como gafas o vello facial) o porque se eliminaron partes debido a una alta varianza. Por tanto, sería difícil buscar una cara utilizando las componentes resultantes por sí mismas. Las componentes que todavía pueden ser parte de la cara después de las etapas de iteración de varianza y clasificación de componentes, se conectan para formar un gráfico tal como se muestra en la figura 15. De esta manera, las componentes del color de la piel que tienen características similares, y están próximas en el espacio, se agrupan juntas y se examinan adicionalmente.
En referencia a la figura 15, cada componente resultante (que sobrevive a las etapas de detección de color, eliminación de bordes, y clasificación de componentes) se representa por un vértice de un gráfico. Los vértices se conectan si están próximos en el espacio en la imagen original y si tienen un color similar en la imagen original. Dos componentes, i y j, tienen un color similar si:
|Y_{i} - Y_{j}| <t_{y} \wedge |U_{i} - U_{j}|<t_{u}
\hskip0.3cm
Y \ LÍNEA
\hskip0.3cm
V_{i} - V_{j}|<t_{v}
donde Y_{n}, U_{n} y V_{n} son los valores medios de la luminancia y crominancia de la enésima componente y t_{n} son valores umbrales. Los umbrales se basan en variaciones en los valores Y, U y V en las caras y se mantienen lo suficientemente altos de tal modo las componentes de la misma cara se considerarán similares. Las componentes se consideran próximas en el espacio si la distancia entre las mismas es inferior a un umbral. El requisito espacial garantiza que las componentes distantes espacialmente no se agrupan juntas porque las partes de una cara no estarían ubicadas normalmente en partes distantes espacialmente de una imagen.
La conexión entre vértices se denomina un borde. Se le da a cada borde un peso que es proporcional a la distancia euclídea entre los dos vértices. Conectar los vértices juntos dará como resultado un gráfico o un conjunto de gráficos inconexos. Para cada uno de los gráficos resultantes, se extrae el árbol de expansión mínima. El árbol de expansión mínima se define en general como el subconjunto de un gráfico en el que todos los vértices todavía están conectados y la suma de las longitudes de los bordes del gráfico es tan pequeña como sea posible (mínimo peso). Las componentes correspondientes a cada gráfico resultante se clasifican entonces como o bien cara o bien no cara utilizando los parámetros de forma definidos en la etapa de clasificación de componentes mencionada anteriormente. Entonces se divide cada gráfico en dos gráficos eliminando el borde más débil (el borde con el mayor peso) y las componentes correspondientes de los gráficos resultantes se examinan de nuevo. La división continúa hasta que un área de un cuadro delimitador formado alrededor de los gráficos resultantes es inferior a un umbral.
Descomponiendo y examinando cada gráfico en busca de una cara, se determina un conjunto de todas las posibles ubicaciones y tamaños de caras en una imagen. Este conjunto puede contener un gran número de falsos positivos y por ello se aplica una heurística para eliminar algunos de los falsos positivos. Buscar todas las características faciales (es decir, nariz, boca, etc.) requeriría una plantilla, lo que proporcionaría un espacio de búsqueda demasiado grande. Sin embargo, la experimentación ha mostrado que esas características faciales tienen bordes con una alta varianza. Muchos falsos positivos pueden eliminarse examinando la relación de píxeles de alta varianza dentro de una cara potencial con el número total de píxeles en la cara potencia.
La heurística mencionada anteriormente se lleva a cabo aplicando en primer lugar una operación de cierre morfológico a los candidatos faciales dentro de la imagen. Tal como se conoce en la técnica, se elige y se aplica una máscara a cada píxel dentro de una zona facial potencial. Por ejemplo, podría utilizarse una máscara 3x3. Se aplica un algoritmo de dilatación para expandir los bordes de componentes candidatas a cara. Entonces se utiliza un algoritmo de erosión para eliminar píxeles de los bordes. Un experto en la técnica apreciará que estos dos algoritmos, realizados en este orden, rellenarán los huecos entre las componentes y también mantendrá las componentes a sustancialmente la misma escala. Claramente, se podrían realizar etapas de dilataciones múltiples y luego de erosiones múltiples siempre que ambas se apliquen un número igual de veces.
Ahora, la relación de píxeles con una vecindad de alta varianza dentro de la zona candidata a cara se compara con el número total de píxeles en la zona candidata a cara. En referencia a las figuras 16A a 16D, se examina una imagen original en la figura 16A en busca de candidatos a cara potenciales utilizando los procedimientos descritos anteriormente para conseguir la imagen binaria mostrada en la figura 16B. La operación de cierre morfológico se realiza sobre la imagen binaria dando como resultado la imagen mostrada en la figura 16C. Finalmente, se detectan los píxeles con alta varianza ubicados en la imagen de la figura 16C tal como se muestra en la figura 16D. Entonces puede determinarse la relación de los píxeles de alta varianza con el número total de píxeles. Todo el procedimiento de detección de participantes se resume mediante las etapas S2 a S16 mostradas en la figura 17.
Tal como puede distinguirse, controlando una cámara para ver un espacio definido por un sistema de videoconferencia, pueden calcularse automáticamente y actualizarse continuamente preajustes de parámetros de la cámara correspondientes a participantes.
Habiendo descrito las realizaciones preferidas debería ser evidente que podrían realizarse diversos cambios sin apartarse del alcance de la invención que se define mediante las reivindicaciones adjuntas.

Claims (20)

1. Procedimiento de cálculo de preajustes de parámetros de la cámara correspondientes a participantes (Part A, Part B, Part C) en un sistema de videoconferencia, comprendiendo dicho procedimiento:
- proporcionar una cámara que tenga parámetros (50) de giro, inclinación y zoom;
- definir un espacio basándose en una distribución de dicho sistema de videoconferencia;
realizando uno de
- mover dicha cámara a través de todos los valores de giro pertinentes, definiéndose dichos valores de giro pertinentes por dicho espacio en el que está ubicado dicho sistema de videoconferencia, y
- hacer un zoom de alejamiento en dicha cámara de tal modo que pueda verse a todos los posibles participantes mediante dicha cámara y de tal modo que pueda determinarse una ubicación de cada participante en dicho espacio;
- detectar y etiquetar dichos participantes para obtener participantes etiquetados dentro de dicho espacio;
- calcular dichos preajustes correspondientes a dichos participantes etiquetados, definiendo dichos preajustes una vista de la cámara, basándose dichos preajustes en al menos una de: (i) una posición óptima de dichos participantes etiquetados en dicha vista de la cámara, (ii) una alineación del centro de una cabeza de dichos participantes etiquetados con un centro de dicha vista de la cámara, y (iii) una alineación de un centro de un participante etiquetado con dicho centro de dicha vista de la cámara; y
- actualizar los preajustes asociados con un participante etiquetado particular si ha cambiando una ubicación del participante etiquetado particular, siendo la actualización continua, periódica, o cuando se selecciona un nuevo preajuste.
2. Procedimiento según la reivindicación 1, que comprende además: proporcionar al menos una segunda cámara para actualizar dichos preajustes ejecutando dicha actuación.
3. Procedimiento según la reivindicación 1, que comprende además el seguimiento de dichos participantes etiquetados.
4. Procedimiento según la reivindicación 1, comprendiendo además la etapa de actualizar dicho preajuste actualizar dichos preajustes teniendo dicho sistema de videoconferencia que realizar al menos uno de ajustar un preajuste cuando un usuario elige ese preajuste, borrar un preajuste cuando el participante correspondiente al preajuste abandona dicho espacio, y repetir dicha actuación.
5. Procedimiento según la reivindicación 1, en el que en dicha etapa de cálculo, cuando más de un participante está dentro de dicha vista de la cámara, los participantes se combinan en una imagen combinada y el centro de la imagen combinada se utiliza para determinar dichos preajustes.
6. Procedimiento según la reivindicación 1, en el que dicha etapa de detección comprende:
- proporcionar una imagen digital compuesta por una pluralidad de píxeles (52);
- producir una imagen binaria a partir de la imagen digital detectando píxeles (54) del color de la piel;
- eliminar píxeles correspondientes a bordes en la componente de luminancia de dicha imagen binaria produciendo de ese modo componentes (56) de imagen binaria;
- mapear dichas componentes de imagen binaria en al menos un gráfico (512); y
- clasificar dichas componentes de imagen binaria mapeadas como tipos faciales y no faciales en el que los tipos faciales sirven como candidatos (514) faciales.
7. Procedimiento según la reivindicación 6, que comprende además la etapa de aplicar una heurística, incluyendo dicha heurística las siguientes etapas:
- aplicar una operación de cierre morfológico sobre cada uno de dichos candidatos faciales para producir al menos un candidato facial cerrado;
- determinar píxeles de alta varianza en dicho candidato facial cerrado;
\newpage
- determinar la relación entre dichos píxeles de alta varianza y el número total de píxeles en dicho candidato a cara cerrado; y
- comparar dicha relación con un umbral.
8. Procedimiento según la reivindicación 6, en el que dicha etapa de eliminación incluye:
- aplicar una máscara a una pluralidad de píxeles que incluye un píxel examinado;
- determinar la varianza entre dicho píxel examinado y píxeles dispuestos dentro de dicha máscara; y
- comparar dicha varianza con un umbral de varianza.
9. Procedimiento según la reivindicación 8, en el que:
- dicha etapa de eliminación se repite para disminuir umbrales de varianza hasta que un tamaño de dichas componentes de imagen binaria sea inferior a un umbral de tamaño de componente; y
- después de cada etapa de eliminación se realiza dicha etapa de clasificación de dichas componentes.
10. Procedimiento según la reivindicación 6, en el que dichas componentes de imagen binaria están conectadas.
11. Procedimiento según la reivindicación 6, en el que dicha etapa de clasificación comprende formar un cuadro delimitador alrededor de una componente clasificada de dichas componentes y realizar al menos uno de:
- formar un cuadro delimitador alrededor de una componente clasificada de dichas componentes;
- comparar un área del cuadro delimitador con un umbral de cuadro delimitador;
- comparar una relación de aspecto del cuadro delimitador con un umbral de relación de aspecto;
- determinar una relación de área, siendo dicha relación de área la comparación entre el área de dicha componente clasificada y el área de dicho cuadro delimitador, y comparar dicha relación de área con un umbral de relación de área;
- determinar una orientación de objetos alargados dentro de dicho cuadro delimitador; y
- determinar una distancia entre un centro de dicho cuadro delimitador y un centro de dicha componente clasificada.
12. Procedimiento según la reivindicación 6, en el que dicha etapa de mapeo comprende las siguientes etapas:
- representar cada componente como un vértice;
- conectar vértices con un borde cuando están próximos en el espacio y son similares en color, formando de ese modo dicho al menos un gráfico.
13. Procedimiento según la reivindicación 12, en el que dicho borde tiene un peso asociado y que comprende además las etapas de:
- extraer el árbol de expansión mínima de cada gráfico;
- clasificar las componentes de imagen binaria correspondientes de cada gráfico como o bien cara o bien no cara;
- eliminar el borde en cada gráfico con el mayor peso formando de ese modo dos gráficos más pequeños; y
- repetir dicha etapa de clasificación de las componentes de imagen binaria correspondientes para cada uno de dichos gráficos más pequeños hasta que un cuadro delimitador alrededor de dichos gráficos más pequeños sea inferior a un umbral de gráfico.
14. Sistema de videoconferencia que comprende:
- al menos una cámara que tiene parámetros (50) de giro, inclinación y zoom;
- teniendo dichos parámetros valores asignados a participantes correspondientes de dicho sistema de videoconferencia, siendo los valores preajustes, definiendo dichos preajustes una vista de la cámara;
- al menos uno de medios de giro para que dicha cámara realice un movimiento panorámico por todo un espacio definido por dicho sistema de videoconferencia, y medios de zoom para hacer zoom de alejamiento en dicha cámara para permitir de ese modo que dicha cámara vea el espacio definido por dicho sistema de videoconferencia;
- medios de detección y etiquetado para detectar y etiquetar los participantes para obtener participantes etiquetados en dicho espacio; y
- medios de determinación para determinar los preajustes de dicha cámara basándose en una posición de la cámara que colocaría a uno de dichos participantes etiquetados en una de: (i) una posición óptima, (ii) una posición en la que una cabeza de dicho participante etiquetado está en alineación con un centro de dicha vista de la cámara, y (iii) una posición en la que un centro de dicho participante etiquetado está alineado con dicho centro de dicha vista de la cámara
- medios para actualizar los preajustes asociados con un participante etiquetado particular si la ubicación de un participante etiquetado particular ha cambiando, siendo la actualización continua, periódica, o cuando se selecciona un nuevo preajuste.
15. Sistema de videoconferencia según la reivindicación 14, en el que los medios para la actualización comprenden al menos una segunda cámara para actualizar dichos preajustes.
16. Sistema de videoconferencia según la reivindicación 14, que comprende además medios para el seguimiento de dichos participantes asociando una etiqueta con cada uno de dichos participantes.
17. Sistema de videoconferencia según la reivindicación 14, en el que los medios para la actualización se disponen para actualizar dichos preajustes teniendo dicho sistema de videoconferencia que realizar al menos uno de ajustar un preajuste cuando un usuario elige ese preajuste, borrar un preajuste cuando el participante correspondiente al preajuste abandona dicho espacio, realizar un movimiento panorámico de dicha cámara por dicho espacio, y hacer un zoom en dicha cámara por dicho espacio.
18. Sistema de videoconferencia según la reivindicación 14, en el que cuando hay más de un participante dentro de dicha vista de la cámara, los participantes se combinan en una imagen combinada y el centro de la imagen combinada se utiliza para determinar dichos preajustes.
19. Sistema de videoconferencia según la reivindicación 14, en el que dicha detección comprende:
- proporcionar una imagen digital compuesta por una pluralidad de píxeles (52);
- producir una imagen binaria a partir de la imagen digital detectando píxeles (54) del color de la piel;
- eliminar píxeles correspondientes a bordes en la componente de luminancia de dicha imagen binaria produciendo de ese modo componentes (56) de imagen binaria;
- mapear dichas componentes de imagen binaria en al menos un gráfico (512); y
- clasificar dichas componentes de imagen binaria mapeadas como tipos faciales y no faciales en el que los tipos faciales sirven como candidatos (514) faciales.
20. Sistema de videoconferencia según la reivindicación 15, disponiéndose la al menos una segunda cámara para actualizar dichos preajustes para realizar al menos uno de realizar un movimiento panorámico de dicha cámara por dicho espacio, y hacer zoom en dicha cámara por dicho espacio.
ES99964595T 1998-12-22 1999-12-14 Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. Expired - Lifetime ES2301256T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/218,554 US7057636B1 (en) 1998-12-22 1998-12-22 Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
US218554 1998-12-22

Publications (1)

Publication Number Publication Date
ES2301256T3 true ES2301256T3 (es) 2008-06-16

Family

ID=22815560

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99964595T Expired - Lifetime ES2301256T3 (es) 1998-12-22 1999-12-14 Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias.

Country Status (8)

Country Link
US (1) US7057636B1 (es)
EP (1) EP1057326B1 (es)
JP (1) JP2002534009A (es)
KR (1) KR100699704B1 (es)
CN (1) CN1156151C (es)
DE (1) DE69938173T2 (es)
ES (1) ES2301256T3 (es)
WO (1) WO2000038414A1 (es)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661450B2 (en) * 1999-12-03 2003-12-09 Fuji Photo Optical Co., Ltd. Automatic following device
US7283788B1 (en) * 2000-07-26 2007-10-16 Posa John G Remote microphone teleconferencing configurations
US20020130955A1 (en) * 2001-01-12 2002-09-19 Daniel Pelletier Method and apparatus for determining camera movement control criteria
US6952224B2 (en) * 2001-03-30 2005-10-04 Intel Corporation Object trackability via parametric camera tuning
JP2002333652A (ja) * 2001-05-10 2002-11-22 Oki Electric Ind Co Ltd 撮影装置及び再生装置
US6611281B2 (en) 2001-11-13 2003-08-26 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
JP2003284053A (ja) * 2002-03-27 2003-10-03 Minolta Co Ltd 監視カメラシステムおよび監視カメラ制御装置
GB2395780A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
JP4218348B2 (ja) * 2003-01-17 2009-02-04 オムロン株式会社 撮影装置
JP4333150B2 (ja) * 2003-01-31 2009-09-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
JP4277534B2 (ja) * 2003-02-12 2009-06-10 オムロン株式会社 画像編集装置および画像編集方法
US20050117015A1 (en) * 2003-06-26 2005-06-02 Microsoft Corp. Foveated panoramic camera system
CN100448267C (zh) 2004-02-06 2008-12-31 株式会社尼康 数码相机
JP4593172B2 (ja) * 2004-05-25 2010-12-08 公立大学法人会津大学 カメラ制御装置
US7623156B2 (en) * 2004-07-16 2009-11-24 Polycom, Inc. Natural pan tilt zoom camera motion to preset camera positions
US7796827B2 (en) * 2004-11-30 2010-09-14 Hewlett-Packard Development Company, L.P. Face enhancement in a digital video
JP4770178B2 (ja) * 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
JP4824411B2 (ja) * 2005-01-20 2011-11-30 パナソニック株式会社 顔抽出装置、半導体集積回路
JP2007010898A (ja) * 2005-06-29 2007-01-18 Casio Comput Co Ltd 撮像装置及びそのプログラム
JP4412552B2 (ja) 2005-10-05 2010-02-10 富士フイルム株式会社 画像レイアウト装置および方法並びにプログラム
US8760485B2 (en) * 2006-03-02 2014-06-24 Cisco Technology, Inc. System and method for displaying participants in a videoconference between locations
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的***和方法
US7692680B2 (en) * 2006-04-20 2010-04-06 Cisco Technology, Inc. System and method for providing location specific sound in a telepresence system
US7532232B2 (en) * 2006-04-20 2009-05-12 Cisco Technology, Inc. System and method for single action initiation of a video conference
US7710448B2 (en) * 2006-04-20 2010-05-04 Cisco Technology, Inc. System and method for preventing movement in a telepresence system
US20070250567A1 (en) * 2006-04-20 2007-10-25 Graham Philip R System and method for controlling a telepresence system
US7679639B2 (en) * 2006-04-20 2010-03-16 Cisco Technology, Inc. System and method for enhancing eye gaze in a telepresence system
US7707247B2 (en) * 2006-04-20 2010-04-27 Cisco Technology, Inc. System and method for displaying users in a visual conference between locations
JP4228010B2 (ja) * 2006-09-29 2009-02-25 Necエンジニアリング株式会社 テレビ会議装置
US8792005B2 (en) * 2006-11-29 2014-07-29 Honeywell International Inc. Method and system for automatically determining the camera field of view in a camera network
US8085290B2 (en) * 2006-12-06 2011-12-27 Cisco Technology, Inc. System and method for displaying a videoconference
JP4845715B2 (ja) * 2006-12-22 2011-12-28 キヤノン株式会社 画像処理方法、画像処理装置、プログラム、及び記憶媒体
JP3132386U (ja) * 2007-03-26 2007-06-07 株式会社三菱東京Ufj銀行 Tv会議用デジタルカメラ
US8203591B2 (en) 2007-04-30 2012-06-19 Cisco Technology, Inc. Method and system for optimal balance and spatial consistency
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
EP2007141B1 (en) * 2007-06-20 2018-11-21 Provenance Asset Group LLC A system and method for providing a video conference
NO327899B1 (no) * 2007-07-13 2009-10-19 Tandberg Telecom As Fremgangsmate og system for automatisk kamerakontroll
JP5228407B2 (ja) * 2007-09-04 2013-07-03 ヤマハ株式会社 放収音装置
JP5034819B2 (ja) 2007-09-21 2012-09-26 ヤマハ株式会社 放収音装置
US8203593B2 (en) * 2007-12-28 2012-06-19 Motorola Solutions, Inc. Audio visual tracking with established environmental regions
US8379076B2 (en) * 2008-01-07 2013-02-19 Cisco Technology, Inc. System and method for displaying a multipoint videoconference
US8355041B2 (en) 2008-02-14 2013-01-15 Cisco Technology, Inc. Telepresence system for 360 degree video conferencing
US8797377B2 (en) * 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
KR101249737B1 (ko) * 2008-12-03 2013-04-03 한국전자통신연구원 움직이는 카메라 환경에서의 물체 추적 장치 및 그 방법
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8477175B2 (en) * 2009-03-09 2013-07-02 Cisco Technology, Inc. System and method for providing three dimensional imaging in a network environment
CN102414717B (zh) * 2009-04-29 2014-06-25 皇家飞利浦电子股份有限公司 选择相机的最佳观察角位置的方法
US20110119597A1 (en) * 2009-05-09 2011-05-19 Vivu, Inc. Method and apparatus for capability-based multimedia interactions
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8175335B2 (en) * 2009-06-17 2012-05-08 Sony Corporation Content adaptive detection of images with stand-out object
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US8350891B2 (en) 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
USD626103S1 (en) 2010-03-21 2010-10-26 Cisco Technology, Inc. Video unit with integrated features
USD626102S1 (en) 2010-03-21 2010-10-26 Cisco Tech Inc Video unit with integrated features
CN102244759A (zh) * 2010-05-12 2011-11-16 宇泰华科技股份有限公司 直觉式交谈方法
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US9723260B2 (en) * 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
US8446455B2 (en) 2010-12-08 2013-05-21 Cisco Technology, Inc. System and method for exchanging information in a video conference environment
US8553064B2 (en) 2010-12-08 2013-10-08 Cisco Technology, Inc. System and method for controlling video data to be rendered in a video conference environment
USD678320S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682294S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD678307S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678308S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682293S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682864S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US8957940B2 (en) 2013-03-11 2015-02-17 Cisco Technology, Inc. Utilizing a smart camera system for immersive telepresence
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
CN106576153A (zh) * 2014-01-10 2017-04-19 旋转型机器人有限公司 用于在视频会议操作期间控制机器人支架的***及方法
US10691398B2 (en) * 2014-09-30 2020-06-23 Accenture Global Services Limited Connected classroom
JP6761230B2 (ja) * 2015-08-21 2020-09-23 キヤノン株式会社 画像処理装置、その制御方法、プログラム及び撮像装置
US9756286B1 (en) 2016-08-05 2017-09-05 Microsoft Technology Licensing, Llc Communication event
JP2021052325A (ja) * 2019-09-25 2021-04-01 キヤノン株式会社 撮像装置、システム、撮像装置の制御方法、プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05196425A (ja) * 1992-01-21 1993-08-06 Ezel Inc 人間の3次元位置検出方法
JP3298072B2 (ja) * 1992-07-10 2002-07-02 ソニー株式会社 ビデオカメラシステム
US5742329A (en) * 1992-10-26 1998-04-21 Canon Kabushiki Kaisha Image pickup system and communication system for use in video conference system or the like
CN1135823A (zh) 1993-10-20 1996-11-13 电视会议***公司 自适应电视会议***
US5508734A (en) 1994-07-27 1996-04-16 International Business Machines Corporation Method and apparatus for hemispheric imaging which emphasizes peripheral content
DE19511713A1 (de) 1995-03-30 1996-10-10 C Vis Computer Vision Und Auto Verfahren und Vorrichtung zur automatischen Bildaufnahme von Gesichtern
US5959667A (en) * 1996-05-09 1999-09-28 Vtel Corporation Voice activated camera preset selection system and method of operation
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
US6343141B1 (en) * 1996-10-08 2002-01-29 Lucent Technologies Inc. Skin area detection for video image systems
US6072522A (en) * 1997-06-04 2000-06-06 Cgc Designs Video conferencing apparatus for group video conferencing
JPH1139469A (ja) * 1997-07-24 1999-02-12 Mitsubishi Electric Corp 顔画像処理装置
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
US6275614B1 (en) * 1998-06-26 2001-08-14 Sarnoff Corporation Method and apparatus for block classification and adaptive bit allocation
US6263113B1 (en) * 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image

Also Published As

Publication number Publication date
JP2002534009A (ja) 2002-10-08
EP1057326B1 (en) 2008-02-20
CN1156151C (zh) 2004-06-30
DE69938173D1 (de) 2008-04-03
CN1298601A (zh) 2001-06-06
DE69938173T2 (de) 2009-02-19
EP1057326A1 (en) 2000-12-06
WO2000038414A1 (en) 2000-06-29
KR100699704B1 (ko) 2007-03-27
KR20010041177A (ko) 2001-05-15
US7057636B1 (en) 2006-06-06

Similar Documents

Publication Publication Date Title
ES2301256T3 (es) Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias.
ES2906619T3 (es) Composición y escalamiento de subescenas separadas angularmente
US9692964B2 (en) Modification of post-viewing parameters for digital images using image region or feature information
US8675991B2 (en) Modification of post-viewing parameters for digital images using region or feature information
JP5088507B2 (ja) 同一性判定装置、同一性判定方法および同一性判定用プログラム
US20090003708A1 (en) Modification of post-viewing parameters for digital images using image region or feature information
CN110572570B (zh) 一种多人场景的智能识别拍摄的方法、***及存储介质
CN110545378A (zh) 一种多人场景的智能识别拍摄的***和方法
US20230328382A1 (en) Image processing device and electronic device
US20240236474A1 (en) Systems and methods for obtaining a smart panoramic image
JP7334536B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6820489B2 (ja) 画像処理装置、および、画像処理プログラム
JP6450604B2 (ja) 画像取得装置及び画像取得方法
Liang et al. Video2Cartoon: A system for converting broadcast soccer video into 3D cartoon animation
KR100438303B1 (ko) 객체 추출방법
Sun et al. Whac-a-mole: A head detection scheme by estimating the 3D envelope from depth image
CN114924645A (zh) 基于手势识别的交互方法及***