ES2301256T3 - Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. - Google Patents
Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. Download PDFInfo
- Publication number
- ES2301256T3 ES2301256T3 ES99964595T ES99964595T ES2301256T3 ES 2301256 T3 ES2301256 T3 ES 2301256T3 ES 99964595 T ES99964595 T ES 99964595T ES 99964595 T ES99964595 T ES 99964595T ES 2301256 T3 ES2301256 T3 ES 2301256T3
- Authority
- ES
- Spain
- Prior art keywords
- camera
- participants
- participant
- presets
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/78—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
- G01S3/782—Systems for determining direction or deviation from predetermined direction
- G01S3/785—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
- G01S3/786—Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
- G01S3/7864—T.V. type tracking systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
- H04N23/661—Transmitting camera control signals through networks, e.g. control via the Internet
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electromagnetism (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Procedimiento de cálculo de preajustes de parámetros de la cámara correspondientes a participantes (Part A, Part B, Part C) en un sistema de videoconferencia, comprendiendo dicho procedimiento: - proporcionar una cámara que tenga parámetros (50) de giro, inclinación y zoom; - definir un espacio basándose en una distribución de dicho sistema de videoconferencia; realizando uno de - mover dicha cámara a través de todos los valores de giro pertinentes, definiéndose dichos valores de giro pertinentes por dicho espacio en el que está ubicado dicho sistema de videoconferencia, y - hacer un zoom de alejamiento en dicha cámara de tal modo que pueda verse a todos los posibles participantes mediante dicha cámara y de tal modo que pueda determinarse una ubicación de cada participante en dicho espacio; - detectar y etiquetar dichos participantes para obtener participantes etiquetados dentro de dicho espacio; - calcular dichos preajustes correspondientes a dichos participantes etiquetados, definiendo dichos preajustes una vista de la cámara, basándose dichos preajustes en al menos una de: (i) una posición óptima de dichos participantes etiquetados en dicha vista de la cámara, (ii) una alineación del centro de una cabeza de dichos participantes etiquetados con un centro de dicha vista de la cámara, y (iii) una alineación de un centro de un participante etiquetado con dicho centro de dicha vista de la cámara; y - actualizar los preajustes asociados con un participante etiquetado particular si ha cambiando una ubicación del participante etiquetado particular, siendo la actualización continua, periódica, o cuando se selecciona un nuevo preajuste.
Description
Determinación automática de posiciones de
preajustadas correspondientes a participantes de
videoconferencias.
Esta invención se refiere al campo de tecnología
de videoconferencia y específicamente a un procedimiento para
determinar automáticamente los parámetros de giro, inclinación y
zoom apropiados de una cámara que corresponden a vistas deseadas de
participantes en un escenario de videoconferencia.
Durante una videoconferencia es necesario saber
los parámetros de la cámara apropiados para cada participante de
modo que la vista de la cámara pueda cambiar rápidamente de un
participante a otro. Estos parámetros incluyen el zoom, el giro y
la inclinación apropiados de la cámara, y se denominarán
colectivamente como "parámetros" de la cámara siendo los
valores de estos parámetros asociados con cada participante los
"preajustes". Mientras tiene lugar la conferencia, los
usuarios requieren la capacidad de poder ver a diferentes
participantes rápidamente; cambiando frecuentemente de un
participante a otro en un breve periodo de tiempo.
Dispositivos de la técnica anterior requieren
que un usuario ajuste manualmente los parámetros de la cámara para
cada participante implicado en la videoconferencia. Cada cámara que
se utiliza enfoca a un participante y se acciona un conmutador de
preajuste. Por ejemplo, si hay tres personas en la conferencia, el
conmutador 1 se utiliza para representar los parámetros de la
cámara apropiados para el participante 1; el conmutador 2 para el
participante 2; y el conmutador 3 para el participante 3. Cuando un
usuario desea conmutar la vista entre el participante 1 y el 2,
sólo necesita activar el conmutador 2 y la cámara se mueve y enfoca
en consecuencia. Sin embargo, ajustar una cámara para cada
participante es frecuentemente un proceso tedioso que requiere
dedicación de tiempo por parte del usuario u operador de cámara.
Adicionalmente, cada vez que un participante abandona o entra en la
sala, los preajustes tienen que reajustarse en consecuencia. Si un
participante simplemente se mueve de su ubicación original, los
ajustes de la cámara originales ya no se aplicarán. Claramente este
es un problema si un participante se mueve de una ubicación a otra
dentro de la sala. Sin embargo, incluso si el participante se mueve
dentro de su propia silla (es decir, hacia delante, hacia atrás, se
inclina hacia un lado, etc.) los parámetros pueden cambiar y ese
participante puede ya no estar enfocado, en el centro de la vista
de la cámara, o del tamaño deseado con respecto a la vista de la
cámara.
En la patente estadounidense 5.598.209, un
usuario puede apuntar a un objeto o persona que desea ver y el
sistema almacena automáticamente los parámetros de giro e
inclinación de la cámara que se refieren al centro de ese objeto.
Sin embargo, todos los objetos o personales en la sala tienen que
seleccionarse y almacenarse con afirmación bajo el control de un
usuario, lo que de nuevo lleva tiempo. Tampoco se proporciona
actualizar los parámetros cuando un participante abandona o entra
en la sala.
La capacidad de determinar automáticamente
posiciones de preajuste es útil también en una distribución de
congreso. En general, en estos tipos de salas, los preajustes de la
cámara se basan en el micrófono que se utiliza para cada individuo.
Cuando un participante enciende su micrófono, se utilizan los
preajustes de la cámara que se refieren a la posición de ese
micrófono. Esto es problemático porque si el micrófono no funciona
o si otro hablante utiliza un micrófono particular, podría no tener
lugar la correlación apropiada entre el hablante y la vista de la
cámara.
Por lo tanto, existe una necesidad de un sistema
de videoconferencia que determine automáticamente los parámetros de
la cámara apropiados para todos los participantes y que también
pueda autoajustarse cuando los participantes entran en y abandonan
la sala. El objetivo de una videoconferencia es la conversación y
comunicación eficaces. Si un usuario tiene que reajustar
continuamente el sistema para inicializar o actualizar los
parámetros de preajuste, se frustra este objetivo. La dinámica de
conversación entre los usuarios finales es diferente de la de una
producción (como en un programa de televisión). Para facilitar esta
dinámica, es deseable automatizar tanto del sistema como sea
posible sin recurrir a una vista de zoom de alejamiento estática que
proporcionaría comunicación menos significativa.
Un aspecto de la invención es un procedimiento
de cálculo de preajustes de los parámetros de la cámara
correspondientes a participantes en un sistema de videoconferencia.
El procedimiento incluye proporcionar una cámara que tenga
parámetros de giro, inclinación y zoom, y definir un espacio
basándose en una distribución del sistema de videoconferencia. El
procedimiento incluye además realizar uno de mover la cámara a
través de todos los valores de giro pertinentes, definiéndose los
valores de giro pertinentes por el espacio en el que está ubicado el
sistema de videoconferencia, y hacer un zoom de alejamiento en la
cámara de tal modo que pueda verse a todos los posibles
participantes mediante la cámara y de tal modo que pueda
determinarse una ubicación de cada participante en el espacio. El
procedimiento prevé además detectar los participantes dentro del
espacio y detectar los preajustes correspondientes a los
participantes, definiendo los preajustes una vista de la cámara,
basándose los preajustes en al menos una de una posición óptima de
los participantes en la vista de la cámara, una alineación del
centro de una cabeza de los participantes con un centro de la vista
de la cámara, y una alineación de un centro de un participante con
el centro de la vista de la cámara.
Este aspecto, como los siguientes, permite la
detección y actualización automáticas de parámetros de la cámara
correspondientes a participantes en una videoconferencia.
Según otro aspecto de la invención, un sistema
de videoconferencia incluye al menos una cámara que tiene parámetros
de giro, inclinación y zoom. Los parámetros tienen valores de
preajuste asignados a participantes correspondientes del sistema de
videoconferencia. Cada uno de los preajustes define una vista de la
cámara y se determinan mediante: uno de realizar un movimiento
panorámico y hacer zoom en la cámara por todo un espacio definido
por el sistema de videoconferencia, detectar un participante, y
definir un preajuste basándose en una posición de la cámara que
colocaría al participante en una de una posición óptima, una
posición en la que una cabeza del participante está en alineación
con un centro de la vista de la cámara, y una posición en la que un
centro del participante está alineado con el centro de la vista de
la cámara.
Según aún otro aspecto de la invención, un
sistema de videoconferencia comprende al menos una cámara que tiene
parámetros de giro, inclinación y zoom. Los parámetros tienen
valores de preajuste asignados a participantes correspondientes del
sistema de videoconferencia; definiendo los preajustes una vista de
la cámara. El sistema incluye además al menos uno de medios de giro
para que la cámara realice un movimiento panorámico por todo un
espacio definido por el sistema de videoconferencia, y medios de
zoom para hacer zoom de alejamiento en la cámara para permitir de
ese modo que la cámara vea el espacio definido por el sistema de
videoconferencia. Se utilizan medios de detección para detectar a
los participantes en el espacio. Se utilizan medios de determinación
para determinar los preajustes de la cámara basándose en una
posición de la cámara que colocaría a uno de los participantes en
una de una posición óptima, una posición en la que una cabeza del
participante está en alineación con un centro de dicha vista de la
cámara, y una posición en la que un centro del participante está
alineado con el centro de la vista de la cámara.
Es un objeto de la invención proporcionar un
sistema y procedimiento de videoconferencia que pueda determinar
automáticamente los preajustes de los parámetros de la cámara que se
refieren a las vistas apropiadas de los participantes.
Es otro objeto de la invención proporcionar un
sistema y procedimiento de videoconferencia que pueda actualizar
continuamente preajustes de la cámara según los cambios en el número
y ubicación de los participantes.
Estos objetos, así como otros, serán más
evidentes a partir de la siguiente descripción leída en conjunción
con los dibujos adjuntos, en los que se prevé que números de
referencia iguales designen los mismos elementos.
Las figuras 1A, 1B y 1C son diagramas de
distribuciones de sala, congreso y mesa respectivamente de un
sistema de videoconferencia según la invención;
las figuras 2A, 2B y 2C son diagramas que
muestran a un participante entrando en una vista de la cámara cuando
la cámara realiza un movimiento panorámico en una sala en un
sistema de videoconferencia según la invención;
la figura 3 es un modelo en perspectiva de una
cámara utilizada en la invención;
la figura 4 es un diagrama que muestra a los
participantes en una videoconferencia con preajustes temporales
respectivos indicados;
la figura 5 es un diagrama que muestra el centro
de un participante desplazado del centro de la vista de la cámara
de ese participante;
la figura 6 es un diagrama que muestra a los
participantes en una videoconferencia con preajustes actualizados
respectivos indicados;
la figura 7 es un diagrama que muestra una
realización alternativa de la invención que utiliza dos cámaras;
la figura 8 es un diagrama de un sistema de
coordenadas cilíndricas utilizado para colores de representación de
píxeles en las imágenes;
la figura 9 son tres gráficos que representan
proyecciones del espacio de color YUV que indican las zonas en las
que se encuentras los píxeles del color de la piel;
las figuras 10A a 10F son imágenes originales e
imágenes binarias respectivas que se forman separando los píxeles
basándose en el color;
la figura 11 es un diagrama que ilustra cómo se
utiliza una máscara 3x3 como parte de la detección de la variación
de luminancia según la invención;
las figuras 12A y 12B son diagramas que ilustran
conectividad de tipo 4 y 8 respectivamente;
las figuras 13A y 13B son imágenes que muestran
cómo aparecería la imagen de las figuras 3C y 3E después de que se
eliminen los bordes según la invención;
la figura 14 es una imagen que muestra ejemplos
de cuadros delimitadores aplicados a la imagen de la figura 3F;
la figura 15 es una secuencia de diagramas que
muestra cómo se representan los componentes de una imagen por
vértices y se conectan para formar un gráfico según la
invención;
las figuras 16A a 16D son una secuencia de
imágenes que ilustran la aplicación de una heurística según la
invención; y
la figura 17 es un diagrama de flujo que detalla
las etapas generales implicadas en la detección de caras.
En la figura 1A, se muestra un sistema de
videoconferencia en el que los participantes están sentados
alrededor de una mesa. La figura 1B muestra los participantes en
una distribución de estilo congreso. Un cámara 50 se controla
mediante un controlador 52 para realizar un movimiento panorámico
desde un lado de la sala al otro. Claramente, el movimiento
panorámico puede comenzar y terminar en el mismo lugar. Por ejemplo,
tal como se muestra en la figura 1C, la cámara 50 podría disponerse
en el medio de una sala con los participantes ubicados todos
alrededor de la misma. En este tipo de situación, la cámara 50
giraría complemente en un círculo con el fin de realizar un
movimiento panorámico completo en toda la sala. En la distribución
de congreso mostrada en la figura 1B, la cámara 50 podría realizar
múltiples trayectorias panorámicas para cubrir las diferentes
filas. Cada una de estas trayectorias tendría una inclinación
diferente y probablemente un zoom diferente (aunque el zoom puede
ser el mismo si los participantes están colocados directamente unos
por encima de otros a sustancialmente la misma distancia radial
desde la cámara). De nuevo, en la distribución de congreso, la
cámara 50 podría disponerse en el centro de la sala y entonces el
movimiento panorámico puede requerir un giro completo tal como se
muestra en la figura 1C.
Para mayor simplicidad, ahora se describirá
adicionalmente la distribución mostrada en la figura 1A aunque
debería ser evidente que se aplicarían las mismas ideas a todas las
distribuciones mencionadas y también a otras distribuciones
evidentes para los expertos en la técnica. La invención funcionará
para cualquier espacio definido por la ajustabilidad del sistema de
videoconferencia. Se muestran tres participantes (Part_{A},
Part_{B}, Part_{C}) pero, de nuevo, podrían implicarse más
participantes.
Cuando la cámara 50 realiza un movimiento
panorámico desde un lado de la sala al otro, los participantes
parecerán moverse por y a través de la vista de la cámara. Tal como
se muestra en las figuras 2A a 2C, un participante aparece en
diferentes partes de la vista de la cámara dependiendo de la
posición de giro de la cámara. Tal como puede distinguirse también
a partir de la figura, para tres posiciones de giro diferentes (P1,
P2, P3) la inclinación (T) y el zoom (Z) permanecen iguales.
También es posible que durante la exploración de la cámara inicial,
pudiera moverse uno de los otros parámetros (es decir, la
inclinación o el zoom) a través de un intervalo apropiado mientras
que los dos parámetros restantes se mantienen constantes. Otra
posibilidad es si la cámara 50 tiene su ajuste de parámetro de zoom
de tal modo que pudiera verse de una vez toda la sala (suponiendo
que puede recogerse suficiente información para determinar la
posición de participantes estacionarios tal como se da a conocer
posteriormente de manera más clara). De nuevo, para mayor
simplicidad, se describirá la idea de realizar un movimiento
panorámico con la cámara pero debería ser evidente que las otras
sugerencias podrían implementarse con cambios apropiados que
estarían claros para los expertos en la técnica.
Durante el inicio de la realización de un
movimiento panorámico, cada fotograma que procesa la cámara se
analiza para determinar si un participante está dispuesto dentro
del fotograma. Un procedimiento para realizar esta determinación se
detalla posteriormente en la sección de detección de participantes.
Claramente, podrían implementarse otros procedimientos. Para cada
participante que se detecta, una cámara que realiza un movimiento
panorámico detectará una multiplicidad de fotogramas que incluirían
a ese participante. Por ejemplo, si una cámara procesa mil
fotogramas para una sala, éste podría interpretarse como que son mil
participantes, si se muestra un participante en cada fotograma.
Para evitar este problema de multiplicar el
número real de participantes, se etiqueta cada participante
detectado. Se calcula el centro de masas para cada participante
detectado para cada fotograma procesado. Entonces, se compara un
segundo fotograma, sucesivo que contiene participantes potenciales
con el primer fotograma, anterior para ver si la cámara está viendo
a un nuevo participante o sólo otro fotograma que incluye al mismo
participante. Un procedimiento para llevar a cabo esta comparación
es realizar una extrapolación geométrica basada en el primer centro
y la cantidad que la cámara se ha movido desde la primera posición.
Esto mostraría aproximadamente dónde debería estar el centro si el
segundo fotograma contiene al mismo participante que el primer
fotograma. De manera similar, se calcularía el centro de masas del
segundo fotograma y luego se compararía con el primer centro junto
con el movimiento conocido de la cámara entre la posición en la que
se ve el primer fotograma y la posición en la que se ve el segundo
fotograma. Como alternativa, podría crearse una signatura para cada
participante detectado y entonces podrían compararse las signaturas
de los participantes en fotogramas sucesivos con esa signatura
inicial. Las signaturas se conocen en la técnica. Algunos ejemplos
de técnicas de signatura se tratan posteriormente en la sección de
identificación de participantes y de actualización de posición. Una
vez que se determina que la imagen de un participante está dispuesta
dentro de un fotograma, pueden calcularse preajustes temporales.
En referencia a la figura 3, se muestra un
modelo en perspectiva de una cámara. Un sensor 56 de la cámara
tiene un punto principal PP que tiene una coordenada x e y PPx y PPy
respectivamente. Una lente 58 tiene un centro que está dispuesto a
una longitud focal f del punto principal PP. Un cambio en el zoom de
la cámara se lleva a cabo mediante un cambio en la distancia focal
f. Una f más corta significa una vista amplia ("alejamiento de
zoom"). Un cambio en el parámetro de giro es efectivamente un
giro del sensor alrededor del eje de giro. Un cambio en el
parámetro de inclinación es un giro del sensor alrededor del eje de
inclinación.
Cuando un objeto o participante 62 entra en el
campo de visión de la cámara, puede determinarse la ubicación de
ese participante en el espacio utilizando procedimientos
convencionales si están disponibles dos fotogramas que contienen a
ese participante. Esto es porque se conoce la ubicación del punto
principal PP (no mostrado en 60) y el enfoque f. Cuando la cámara
50 realiza un movimiento panorámico en una sala, adquiere múltiples
fotogramas que contienen participantes y así puede determinarse la
ubicación de cada participante en el espacio. Si la cámara está
haciendo un zoom de alejamiento en lugar de un movimiento
panorámico, pueden necesitarse dos mediciones distintas para
determinar la ubicación. Una vez que se conoce la ubicación de un
participante, puede calcularse el preajuste temporal mediante un
procesador 54 (figuras 1A a 1C).
Para calcular el preajuste temporal, se
determina el centro de un participante, tal como anteriormente para
el etiquetado de participantes, utilizando técnicas conocidas. Por
ejemplo, puede calcularse la media del contorno del participante y
su centro de masas. El punto central se coloca entonces en el centro
de la vista de la cámara para producir, por ejemplo, los preajustes
Psa, Tsa y Zsa para el Part_{A} de la figura 1. Estos procesos de
realización de un movimiento panorámico y cálculo de preajustes se
repiten para todos los participantes en la sala y, en consecuencia,
también determina cuántos participantes hay inicialmente en la
sala. Esto se realiza durante una parte de iniciación de la
conferencia y puede repetirse posteriormente durante una rutina de
actualización tal como se describe posteriormente de manera más
completa.
Una vez que todos los participantes en la sala
están etiquetados y se calculan todos los parámetros temporales tal
como se muestra en la figura 4, la cámara 50 realiza un segundo
movimiento panorámico (o zoom de alejamiento) en la sala. Cada
vista de preajuste se perfecciona adicionalmente porque la
calibración realizada en la fase de realización de movimiento
panorámico inicial no será en general lo suficientemente
precisa.
Tal como se muestra en la figura 5, el centro de
la vista de la cámara se compara con el centro de la cabeza de cada
participante respectivo. Los parámetros se ajustan de tal modo que
en la vista de la cámara, se alinean los centros. Una vez que se
perfecciona el preajuste, se calcula el preajuste correspondiente a
una vista "óptima" de cada participante. Esto puede ser
diferente dependiendo de las culturas sociales. Por ejemplo, la
cabeza y torso de un participante puede ocupar cualquier lugar del
30 al 60% de todo el fotograma, tal como en un programa de noticias
en Estados Unidos. La vista óptima produce preajustes actualizados
Psn', Tsn' y Zsn' tal como se muestra en la figura 6. Estos valores
se actualizan continuamente dependiendo de cómo se estructure el
sistema y cómo deben realizarse las actualizaciones tal como se
explica posteriormente. Si una cámara está mirando a un
participante y ese participante se mueve, se calcularía la nueva
posición óptima y el preajuste de la cámara se ajustará
continuamente en consecuencia.
La cámara puede enfocar a participantes
basándose en seguimiento de audio, seguimiento de vídeo, una
selección realizada por un usuario, o mediante cualquier otra
técnica conocida en la técnica. El seguimiento de audio por sí solo
está limitado porque disminuye en precisión a medida que las
personas se alejan y no puede utilizarse por sí mismo porque
generalmente tiene un error de 4 a 5 grados y no puede haber
seguimiento cuando un participante para de hablar.
Puede asociarse un nombre con cada participante
una vez que se detecta. Por ejemplo, los tres participantes de la
figura 1 podrían identificarse como A, B y C de tal modo que un
usuario podría simplemente indicar que desea ver al participante A
y la cámara se moverá al preajuste optimizado para A.
Adicionalmente, el sistema podría programarse para aprender algo
específico sobre cada participante y por tanto etiquetar a ese
participante. Por ejemplo, podría crearse una signatura para cada
participante, el color de la camiseta de la persona, podría tomarse
un patrón de voz, o podría utilizarse una combinación de la cara y
la voz para formar la etiqueta asociada con un participante. Con
esta información adicional, si el participante A se mueve por la
sala, el sistema sabrá qué participante está moviéndose y no estará
confundido porque el participante A ande a través de la vista
correspondiente a parámetros para el participante B. Además, si dos
participantes están ubicados lo suficientemente próximos el uno al
otro de tal modo que comparten una vista de la cámara, los dos
participantes pueden considerarse como un participante con la
cámara enfocando al centro de la combinación de sus imágenes.
Tal como se expuso anteriormente, un beneficio
de este sistema es que permite que se ajusten automáticamente los
preajustes cuando cambia la dinámica de los participantes de la
sala. Claramente, si se selecciona un preajuste y el participante
correspondiente ha abandonado la sala, el sistema lo detectará y
actualizará los preajustes. Otro procedimiento de actualización es
que cada vez que se selecciona un nuevo preajuste, la cámara 50
hará un zoom de alejamiento (o un movimiento panorámico en la sala)
para ver si alguien ha entrado en o ha abandonado la sala y
actualizará los preajustes antes de que la cámara 50 se mueva al
preajuste seleccionado. La cámara 50 podría controlarse
periódicamente, incluso mientras se le ordena ver a un participante
seleccionado, detener temporalmente la visión de ese participante,
y realizar un movimiento panorámico en la sala o zoom de
alejamiento para ver si el número de participantes ha cambiado. Otra
técnica es reconocer que un participante no está donde debería
estar. Por ejemplo, si se le dice a la cámara 50 que se mueva desde
el preajuste para el participante C al participante A por ejemplo
(figura 1), si el participante B ha abandonado la sala, el sistema
podría aprenderlo y realizar los ajustes apropiados. Aún otra
técnica de actualización implica que la cámara 50 realice un
movimiento panorámico a través de la sala (o zoom de alejamiento) o
bien periódicamente o bien cada vez que se selecciona un nuevo
preajuste.
En referencia a la figura 7, se muestra una
segunda realización. Esta realización muestra las mismas
características que las de la figura 1A excepto que se añade una
segunda cámara 64. La calibración inicial se realiza de la misma
manera que se describió anteriormente. Sin embargo, durante la
conferencia, se utiliza una cámara para enfocar al participante
pertinente mientras que la otra se utiliza para actualizar
continuamente los preajustes. La cámara de actualización puede
estar continuamente en un zoom de alejamiento de tal modo que pueda
determinar cuándo un participante abandona o entra en la sala. Como
alternativa, la cámara de actualización podría realizar
continuamente un movimiento panorámico en la sala y realizar las
actualizaciones apropiadas para los preajustes. Las dos cámaras
comparten la información de preajustes a través, por ejemplo, de un
procesador 54. Claramente, podrían utilizarse más cámaras. Por
ejemplo, podría asignarse una cámara a cada individuo que se planee
que esté en la reunión y entonces podría utilizarse una cámara
adicional como la cámara de actualización.
Una manera de determinar si un participante está
ubicado dentro de una vista de la cámara es determinar si hay una
cara dispuesta dentro de la imagen que se ve mediante la cámara.
Cada píxel en una imagen se representa generalmente en el espacio
de color HSV (tonalidad, saturación, valor). Estos valores se mapean
sobre un sistema de coordenadas cilíndricas tal como se muestra en
la figura 8, donde P es un valor (o luminancia), \theta es la
tonalidad, y r es la saturación. Debido a la no linealidad de
sistemas de coordenadas cilíndricas, se utilizan otros espacios de
color para aproximar el espacio HSV. En la presente solicitud, se
utiliza el espacio de color YUV porque la mayoría del material de
vídeo almacenado en un medio magnético y el estándar MPEG2 utilizan
ambos este espacio de color.
Transformar una imagen RGB al espacio YUV, y
proyectar además en los planos VU, VY y VU, produce gráficos como
los mostrados en la figura 9. Los segmentos de círculo representan
la aproximación del espacio HSV. Cuando se representan los píxeles
correspondientes al color de la piel en el espacio YUV, caen
generalmente en esos segmentos de círculo mostrados. Por ejemplo,
cuando la luminancia de un píxel tiene un valor entre 0 y 200, la
crominancia U tiene generalmente un valor entre -100 y 0 para un
píxel del color de la piel. Estos son valores generales basados en
la experimentación. Claramente, podría realizarse una operación de
entrenamiento de color para cada cámara que se utiliza. Los
resultados de ese entrenamiento se utilizarían entonces para
producir segmentos del color de la piel más precisos.
Para detectar una cara, se examina cada píxel en
una imagen para distinguir si es del color de la piel. Aquellos
píxeles que son del color de la piel se agrupan respecto al resto de
la imagen y por tanto se quedan como candidatos a cara potenciales.
Si al menos una proyección de un píxel no cae dentro de los límites
del segmento de agrupamiento de la piel, se considera que el píxel
no es del color de la piel y se excluye de la consideración como un
candidato a cara potencial.
La imagen resultante formada por la detección
del color de la piel es binaria porque muestra o bien partes de la
imagen que son del color de la piel o bien partes que no son del
color de la piel tal como se muestra en las figuras 10B, 10 D y 10F
que corresponden a las imágenes originales en las figuras 10A, 10C y
10E. En las figuras, se muestra blanco para el color de la piel y
negro para el color que no es de la piel. Tal como se muestra en
las figuras 10A y 10 B, esta etapa de detección por sí sola puede
descartar que grandes partes de la imagen tengan una cara dispuesta
dentro de la misma. Técnicas de la técnica anterior que utilizan el
color y la forma pueden funcionar por tanto para fondos sencillos
tales como el mostrado en la figura 10A. Sin embargo, mirando a las
figuras 10C y 10D y a las figuras 10E y 10F, está claro que la
detección por sólo color y forma puede no ser suficiente para
detectar las caras. En las figuras 10C a 10F, objetos en el fondo
como cuero, madera, ropas, y pelo, tienen colores similares a la
piel. Tal como puede verse en las figuras 10D y 10F, estos objetos
del color de la piel están dispuestos inmediatamente adyacentes a la
piel de las caras y por tanto las propias caras son difíciles de
detectar.
Después de que los píxeles se separan por color,
los píxeles ubicados en los bordes se excluyen de la consideración.
Un borde es un cambio en el nivel de brillo de un píxel al
siguiente. La eliminación se lleva a cabo tomando cada píxel del
color de la piel y calculando la varianza en los píxeles alrededor
del mismo en la componente de luminancia; siendo indicativa una
alta varianza de un borde. Tal como se muestra en la figura 11, se
coloca un cuadro ("ventana") del tamaño o bien de 3x3 o bien
de 5x5 píxeles, en la parte superior de un píxel del color de la
piel. Claramente, podrían utilizarse otras máscaras además de un
cuadro cuadrado. La varianza se define como
\frac{1}{n}\sum\limits^{n}_{i=l}(x_{i}
-
\mu_{x})^{2}
donde \overline{a}_{x} es la
media de todos los píxeles en la ventana examinada. Un nivel de
varianza "alto" será diferente dependiendo de la cara y la
cámara utilizada. Por lo tanto, se utiliza una rutina iterativa
empezando con un nivel de varianza muy alto y bajando hasta un nivel
de varianza
bajo.
En cada etapa de la iteración de varianza, se
excluyen de la consideración facial los píxeles si la varianza en
una ventana alrededor del píxel del color de la piel es superior al
umbral de varianza que se prueba para esa iteración. Después de que
se examinan todos los píxeles en una iteración, se examinan las
componentes conectadas resultantes en busca de características
faciales tal como se describe posteriormente de manera más
completa. Las componentes conectadas son píxeles que son del mismo
valor binario (blancos para color facial) y están conectadas. La
conectividad puede ser conectividad o de tipo 4 u 8. Tal como se
muestra en la figura 12A, para conectividad de tipo 4, el píxel
central se considera "conectado" a sólo los píxeles
directamente adyacentes al mismo tal como se indica mediante el
"1" en los cuadros adyacentes. En conectividad de tipo 8, tal
como se muestra en la figura 12B, los píxeles que tocan
diagonalmente el píxel central también se consideran que están
"conectados" a ese píxel.
Tal como se expuso anteriormente, después de
cada iteración, se examinan las componentes conectadas en una etapa
de clasificación de componentes para ver si podrían ser una cara.
Este examen implica estudiar 5 criterios distintos basándose en un
cuadro delimitador dibujado alrededor de cada componente conectada
resultante; ejemplos de lo cual se muestran en la figura 14 basada
en la imagen de la figura 10E. Los criterios son:
1. El área del cuadro delimitador comparado con
un umbral. Esto reconoce el hecho de que una cara no será en
general muy grande o muy pequeña.
2. La relación de aspecto (altura comparada con
el ancho) del cuadro delimitador comparada con un umbral. Esto
reconoce que las caras humanas caen generalmente en un intervalo de
relaciones de aspecto.
3. La relación del área de píxeles del color de
la piel detectados con el área del cuadro delimitador, comparada
con un umbral. Este criterio reconoce el hecho de que el área
cubierta por una cara humana caerá en un intervalo de porcentajes
del área del cuadro delimitador.
4. La orientación de objetos alargados dentro
del cuadro delimitador. Hay muchas maneras conocidas de determinar
la orientación de una serie de píxeles. Por ejemplo, puede
determinarse el eje medio y puede encontrarse la orientación a
partir de ese eje. En general, las caras no están giradas
significativamente alrededor del eje ("eje-z")
que es perpendicular al plano que tiene la imagen y por tanto las
componentes con objetos alargados que están giradas con respecto al
eje z se excluyen de la consideración.
5. La distancia entre el centro del cuadro
delimitador y el centro de masas de la componente que se examina.
En general, las caras están ubicadas dentro del centro del cuadro
delimitador y no estarán, por ejemplo, ubicadas totalmente a un
lado.
Se continúan las iteraciones para la varianza
descomponiendo de ese modo la imagen en componentes más pequeñas
hasta que el tamaño de las componentes es inferior a un umbral. Las
imágenes de las figuras 10C y 10E se muestran transformadas en las
figuras 13A y 13B respectivamente después del proceso de iteración
de varianza. Tal como puede distinguirse, las caras en la imagen se
separaron de las zonas del color de la piel no faciales en el fondo
como resultado de la iteración de variación. Frecuentemente, esto
provoca que la zona con color de la piel detectado se fragmente
como se muestra a modo de ejemplo en la figura 13B. Esto tiene lugar
porque o bien hay objetos que ocultan partes de la cara (como gafas
o vello facial) o porque se eliminaron partes debido a una alta
varianza. Por tanto, sería difícil buscar una cara utilizando las
componentes resultantes por sí mismas. Las componentes que todavía
pueden ser parte de la cara después de las etapas de iteración de
varianza y clasificación de componentes, se conectan para formar un
gráfico tal como se muestra en la figura 15. De esta manera, las
componentes del color de la piel que tienen características
similares, y están próximas en el espacio, se agrupan juntas y se
examinan adicionalmente.
En referencia a la figura 15, cada componente
resultante (que sobrevive a las etapas de detección de color,
eliminación de bordes, y clasificación de componentes) se representa
por un vértice de un gráfico. Los vértices se conectan si están
próximos en el espacio en la imagen original y si tienen un color
similar en la imagen original. Dos componentes, i y j, tienen un
color similar si:
|Y_{i} -
Y_{j}| <t_{y} \wedge |U_{i} - U_{j}|<t_{u}
\hskip0.3cmY \ LÍNEA
\hskip0.3cmV_{i} - V_{j}|<t_{v}
donde Y_{n}, U_{n} y V_{n}
son los valores medios de la luminancia y crominancia de la enésima
componente y t_{n} son valores umbrales. Los umbrales se basan en
variaciones en los valores Y, U y V en las caras y se mantienen lo
suficientemente altos de tal modo las componentes de la misma cara
se considerarán similares. Las componentes se consideran próximas
en el espacio si la distancia entre las mismas es inferior a un
umbral. El requisito espacial garantiza que las componentes
distantes espacialmente no se agrupan juntas porque las partes de
una cara no estarían ubicadas normalmente en partes distantes
espacialmente de una
imagen.
La conexión entre vértices se denomina un borde.
Se le da a cada borde un peso que es proporcional a la distancia
euclídea entre los dos vértices. Conectar los vértices juntos dará
como resultado un gráfico o un conjunto de gráficos inconexos. Para
cada uno de los gráficos resultantes, se extrae el árbol de
expansión mínima. El árbol de expansión mínima se define en general
como el subconjunto de un gráfico en el que todos los vértices
todavía están conectados y la suma de las longitudes de los bordes
del gráfico es tan pequeña como sea posible (mínimo peso). Las
componentes correspondientes a cada gráfico resultante se clasifican
entonces como o bien cara o bien no cara utilizando los parámetros
de forma definidos en la etapa de clasificación de componentes
mencionada anteriormente. Entonces se divide cada gráfico en dos
gráficos eliminando el borde más débil (el borde con el mayor peso)
y las componentes correspondientes de los gráficos resultantes se
examinan de nuevo. La división continúa hasta que un área de un
cuadro delimitador formado alrededor de los gráficos resultantes es
inferior a un umbral.
Descomponiendo y examinando cada gráfico en
busca de una cara, se determina un conjunto de todas las posibles
ubicaciones y tamaños de caras en una imagen. Este conjunto puede
contener un gran número de falsos positivos y por ello se aplica
una heurística para eliminar algunos de los falsos positivos. Buscar
todas las características faciales (es decir, nariz, boca, etc.)
requeriría una plantilla, lo que proporcionaría un espacio de
búsqueda demasiado grande. Sin embargo, la experimentación ha
mostrado que esas características faciales tienen bordes con una
alta varianza. Muchos falsos positivos pueden eliminarse examinando
la relación de píxeles de alta varianza dentro de una cara
potencial con el número total de píxeles en la cara potencia.
La heurística mencionada anteriormente se lleva
a cabo aplicando en primer lugar una operación de cierre morfológico
a los candidatos faciales dentro de la imagen. Tal como se conoce
en la técnica, se elige y se aplica una máscara a cada píxel dentro
de una zona facial potencial. Por ejemplo, podría utilizarse una
máscara 3x3. Se aplica un algoritmo de dilatación para expandir los
bordes de componentes candidatas a cara. Entonces se utiliza un
algoritmo de erosión para eliminar píxeles de los bordes. Un experto
en la técnica apreciará que estos dos algoritmos, realizados en
este orden, rellenarán los huecos entre las componentes y también
mantendrá las componentes a sustancialmente la misma escala.
Claramente, se podrían realizar etapas de dilataciones múltiples y
luego de erosiones múltiples siempre que ambas se apliquen un número
igual de veces.
Ahora, la relación de píxeles con una vecindad
de alta varianza dentro de la zona candidata a cara se compara con
el número total de píxeles en la zona candidata a cara. En
referencia a las figuras 16A a 16D, se examina una imagen original
en la figura 16A en busca de candidatos a cara potenciales
utilizando los procedimientos descritos anteriormente para
conseguir la imagen binaria mostrada en la figura 16B. La operación
de cierre morfológico se realiza sobre la imagen binaria dando como
resultado la imagen mostrada en la figura 16C. Finalmente, se
detectan los píxeles con alta varianza ubicados en la imagen de la
figura 16C tal como se muestra en la figura 16D. Entonces puede
determinarse la relación de los píxeles de alta varianza con el
número total de píxeles. Todo el procedimiento de detección de
participantes se resume mediante las etapas S2 a S16 mostradas en la
figura 17.
Tal como puede distinguirse, controlando una
cámara para ver un espacio definido por un sistema de
videoconferencia, pueden calcularse automáticamente y actualizarse
continuamente preajustes de parámetros de la cámara correspondientes
a participantes.
Habiendo descrito las realizaciones preferidas
debería ser evidente que podrían realizarse diversos cambios sin
apartarse del alcance de la invención que se define mediante las
reivindicaciones adjuntas.
Claims (20)
1. Procedimiento de cálculo de preajustes de
parámetros de la cámara correspondientes a participantes (Part A,
Part B, Part C) en un sistema de videoconferencia, comprendiendo
dicho procedimiento:
- proporcionar una cámara que tenga parámetros
(50) de giro, inclinación y zoom;
- definir un espacio basándose en una
distribución de dicho sistema de videoconferencia;
realizando uno de
- mover dicha cámara a través de todos los
valores de giro pertinentes, definiéndose dichos valores de giro
pertinentes por dicho espacio en el que está ubicado dicho sistema
de videoconferencia, y
- hacer un zoom de alejamiento en dicha cámara
de tal modo que pueda verse a todos los posibles participantes
mediante dicha cámara y de tal modo que pueda determinarse una
ubicación de cada participante en dicho espacio;
- detectar y etiquetar dichos participantes para
obtener participantes etiquetados dentro de dicho espacio;
- calcular dichos preajustes correspondientes a
dichos participantes etiquetados, definiendo dichos preajustes una
vista de la cámara, basándose dichos preajustes en al menos una de:
(i) una posición óptima de dichos participantes etiquetados en
dicha vista de la cámara, (ii) una alineación del centro de una
cabeza de dichos participantes etiquetados con un centro de dicha
vista de la cámara, y (iii) una alineación de un centro de un
participante etiquetado con dicho centro de dicha vista de la
cámara; y
- actualizar los preajustes asociados con un
participante etiquetado particular si ha cambiando una ubicación
del participante etiquetado particular, siendo la actualización
continua, periódica, o cuando se selecciona un nuevo preajuste.
2. Procedimiento según la reivindicación 1, que
comprende además: proporcionar al menos una segunda cámara para
actualizar dichos preajustes ejecutando dicha actuación.
3. Procedimiento según la reivindicación 1, que
comprende además el seguimiento de dichos participantes
etiquetados.
4. Procedimiento según la reivindicación 1,
comprendiendo además la etapa de actualizar dicho preajuste
actualizar dichos preajustes teniendo dicho sistema de
videoconferencia que realizar al menos uno de ajustar un preajuste
cuando un usuario elige ese preajuste, borrar un preajuste cuando el
participante correspondiente al preajuste abandona dicho espacio, y
repetir dicha actuación.
5. Procedimiento según la reivindicación 1, en
el que en dicha etapa de cálculo, cuando más de un participante
está dentro de dicha vista de la cámara, los participantes se
combinan en una imagen combinada y el centro de la imagen combinada
se utiliza para determinar dichos preajustes.
6. Procedimiento según la reivindicación 1, en
el que dicha etapa de detección comprende:
- proporcionar una imagen digital compuesta por
una pluralidad de píxeles (52);
- producir una imagen binaria a partir de la
imagen digital detectando píxeles (54) del color de la piel;
- eliminar píxeles correspondientes a bordes en
la componente de luminancia de dicha imagen binaria produciendo de
ese modo componentes (56) de imagen binaria;
- mapear dichas componentes de imagen binaria en
al menos un gráfico (512); y
- clasificar dichas componentes de imagen
binaria mapeadas como tipos faciales y no faciales en el que los
tipos faciales sirven como candidatos (514) faciales.
7. Procedimiento según la reivindicación 6, que
comprende además la etapa de aplicar una heurística, incluyendo
dicha heurística las siguientes etapas:
- aplicar una operación de cierre morfológico
sobre cada uno de dichos candidatos faciales para producir al menos
un candidato facial cerrado;
- determinar píxeles de alta varianza en dicho
candidato facial cerrado;
\newpage
- determinar la relación entre dichos píxeles de
alta varianza y el número total de píxeles en dicho candidato a
cara cerrado; y
- comparar dicha relación con un umbral.
8. Procedimiento según la reivindicación 6, en
el que dicha etapa de eliminación incluye:
- aplicar una máscara a una pluralidad de
píxeles que incluye un píxel examinado;
- determinar la varianza entre dicho píxel
examinado y píxeles dispuestos dentro de dicha máscara; y
- comparar dicha varianza con un umbral de
varianza.
9. Procedimiento según la reivindicación 8, en
el que:
- dicha etapa de eliminación se repite para
disminuir umbrales de varianza hasta que un tamaño de dichas
componentes de imagen binaria sea inferior a un umbral de tamaño de
componente; y
- después de cada etapa de eliminación se
realiza dicha etapa de clasificación de dichas componentes.
10. Procedimiento según la reivindicación 6, en
el que dichas componentes de imagen binaria están conectadas.
11. Procedimiento según la reivindicación 6, en
el que dicha etapa de clasificación comprende formar un cuadro
delimitador alrededor de una componente clasificada de dichas
componentes y realizar al menos uno de:
- formar un cuadro delimitador alrededor de una
componente clasificada de dichas componentes;
- comparar un área del cuadro delimitador con un
umbral de cuadro delimitador;
- comparar una relación de aspecto del cuadro
delimitador con un umbral de relación de aspecto;
- determinar una relación de área, siendo dicha
relación de área la comparación entre el área de dicha componente
clasificada y el área de dicho cuadro delimitador, y comparar dicha
relación de área con un umbral de relación de área;
- determinar una orientación de objetos
alargados dentro de dicho cuadro delimitador; y
- determinar una distancia entre un centro de
dicho cuadro delimitador y un centro de dicha componente
clasificada.
12. Procedimiento según la reivindicación 6, en
el que dicha etapa de mapeo comprende las siguientes etapas:
- representar cada componente como un
vértice;
- conectar vértices con un borde cuando están
próximos en el espacio y son similares en color, formando de ese
modo dicho al menos un gráfico.
13. Procedimiento según la reivindicación 12, en
el que dicho borde tiene un peso asociado y que comprende además las
etapas de:
- extraer el árbol de expansión mínima de cada
gráfico;
- clasificar las componentes de imagen binaria
correspondientes de cada gráfico como o bien cara o bien no
cara;
- eliminar el borde en cada gráfico con el mayor
peso formando de ese modo dos gráficos más pequeños; y
- repetir dicha etapa de clasificación de las
componentes de imagen binaria correspondientes para cada uno de
dichos gráficos más pequeños hasta que un cuadro delimitador
alrededor de dichos gráficos más pequeños sea inferior a un umbral
de gráfico.
14. Sistema de videoconferencia que
comprende:
- al menos una cámara que tiene parámetros (50)
de giro, inclinación y zoom;
- teniendo dichos parámetros valores asignados a
participantes correspondientes de dicho sistema de videoconferencia,
siendo los valores preajustes, definiendo dichos preajustes una
vista de la cámara;
- al menos uno de medios de giro para que dicha
cámara realice un movimiento panorámico por todo un espacio
definido por dicho sistema de videoconferencia, y medios de zoom
para hacer zoom de alejamiento en dicha cámara para permitir de ese
modo que dicha cámara vea el espacio definido por dicho sistema de
videoconferencia;
- medios de detección y etiquetado para detectar
y etiquetar los participantes para obtener participantes
etiquetados en dicho espacio; y
- medios de determinación para determinar los
preajustes de dicha cámara basándose en una posición de la cámara
que colocaría a uno de dichos participantes etiquetados en una de:
(i) una posición óptima, (ii) una posición en la que una cabeza de
dicho participante etiquetado está en alineación con un centro de
dicha vista de la cámara, y (iii) una posición en la que un centro
de dicho participante etiquetado está alineado con dicho centro de
dicha vista de la cámara
- medios para actualizar los preajustes
asociados con un participante etiquetado particular si la ubicación
de un participante etiquetado particular ha cambiando, siendo la
actualización continua, periódica, o cuando se selecciona un nuevo
preajuste.
15. Sistema de videoconferencia según la
reivindicación 14, en el que los medios para la actualización
comprenden al menos una segunda cámara para actualizar dichos
preajustes.
16. Sistema de videoconferencia según la
reivindicación 14, que comprende además medios para el seguimiento
de dichos participantes asociando una etiqueta con cada uno de
dichos participantes.
17. Sistema de videoconferencia según la
reivindicación 14, en el que los medios para la actualización se
disponen para actualizar dichos preajustes teniendo dicho sistema de
videoconferencia que realizar al menos uno de ajustar un preajuste
cuando un usuario elige ese preajuste, borrar un preajuste cuando el
participante correspondiente al preajuste abandona dicho espacio,
realizar un movimiento panorámico de dicha cámara por dicho
espacio, y hacer un zoom en dicha cámara por dicho espacio.
18. Sistema de videoconferencia según la
reivindicación 14, en el que cuando hay más de un participante
dentro de dicha vista de la cámara, los participantes se combinan
en una imagen combinada y el centro de la imagen combinada se
utiliza para determinar dichos preajustes.
19. Sistema de videoconferencia según la
reivindicación 14, en el que dicha detección comprende:
- proporcionar una imagen digital compuesta por
una pluralidad de píxeles (52);
- producir una imagen binaria a partir de la
imagen digital detectando píxeles (54) del color de la piel;
- eliminar píxeles correspondientes a bordes en
la componente de luminancia de dicha imagen binaria produciendo de
ese modo componentes (56) de imagen binaria;
- mapear dichas componentes de imagen binaria en
al menos un gráfico (512); y
- clasificar dichas componentes de imagen
binaria mapeadas como tipos faciales y no faciales en el que los
tipos faciales sirven como candidatos (514) faciales.
20. Sistema de videoconferencia según la
reivindicación 15, disponiéndose la al menos una segunda cámara para
actualizar dichos preajustes para realizar al menos uno de realizar
un movimiento panorámico de dicha cámara por dicho espacio, y hacer
zoom en dicha cámara por dicho espacio.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/218,554 US7057636B1 (en) | 1998-12-22 | 1998-12-22 | Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications |
US218554 | 1998-12-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2301256T3 true ES2301256T3 (es) | 2008-06-16 |
Family
ID=22815560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99964595T Expired - Lifetime ES2301256T3 (es) | 1998-12-22 | 1999-12-14 | Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7057636B1 (es) |
EP (1) | EP1057326B1 (es) |
JP (1) | JP2002534009A (es) |
KR (1) | KR100699704B1 (es) |
CN (1) | CN1156151C (es) |
DE (1) | DE69938173T2 (es) |
ES (1) | ES2301256T3 (es) |
WO (1) | WO2000038414A1 (es) |
Families Citing this family (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6661450B2 (en) * | 1999-12-03 | 2003-12-09 | Fuji Photo Optical Co., Ltd. | Automatic following device |
US7283788B1 (en) * | 2000-07-26 | 2007-10-16 | Posa John G | Remote microphone teleconferencing configurations |
US20020130955A1 (en) * | 2001-01-12 | 2002-09-19 | Daniel Pelletier | Method and apparatus for determining camera movement control criteria |
US6952224B2 (en) * | 2001-03-30 | 2005-10-04 | Intel Corporation | Object trackability via parametric camera tuning |
JP2002333652A (ja) * | 2001-05-10 | 2002-11-22 | Oki Electric Ind Co Ltd | 撮影装置及び再生装置 |
US6611281B2 (en) | 2001-11-13 | 2003-08-26 | Koninklijke Philips Electronics N.V. | System and method for providing an awareness of remote people in the room during a videoconference |
US7130446B2 (en) | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP2003284053A (ja) * | 2002-03-27 | 2003-10-03 | Minolta Co Ltd | 監視カメラシステムおよび監視カメラ制御装置 |
GB2395780A (en) * | 2002-11-29 | 2004-06-02 | Sony Uk Ltd | Face detection |
JP4218348B2 (ja) * | 2003-01-17 | 2009-02-04 | オムロン株式会社 | 撮影装置 |
JP4333150B2 (ja) * | 2003-01-31 | 2009-09-16 | ソニー株式会社 | 信号処理装置および方法、記録媒体、並びにプログラム |
JP4277534B2 (ja) * | 2003-02-12 | 2009-06-10 | オムロン株式会社 | 画像編集装置および画像編集方法 |
US20050117015A1 (en) * | 2003-06-26 | 2005-06-02 | Microsoft Corp. | Foveated panoramic camera system |
CN100448267C (zh) | 2004-02-06 | 2008-12-31 | 株式会社尼康 | 数码相机 |
JP4593172B2 (ja) * | 2004-05-25 | 2010-12-08 | 公立大学法人会津大学 | カメラ制御装置 |
US7623156B2 (en) * | 2004-07-16 | 2009-11-24 | Polycom, Inc. | Natural pan tilt zoom camera motion to preset camera positions |
US7796827B2 (en) * | 2004-11-30 | 2010-09-14 | Hewlett-Packard Development Company, L.P. | Face enhancement in a digital video |
JP4770178B2 (ja) * | 2005-01-17 | 2011-09-14 | ソニー株式会社 | カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法 |
JP4824411B2 (ja) * | 2005-01-20 | 2011-11-30 | パナソニック株式会社 | 顔抽出装置、半導体集積回路 |
JP2007010898A (ja) * | 2005-06-29 | 2007-01-18 | Casio Comput Co Ltd | 撮像装置及びそのプログラム |
JP4412552B2 (ja) | 2005-10-05 | 2010-02-10 | 富士フイルム株式会社 | 画像レイアウト装置および方法並びにプログラム |
US8760485B2 (en) * | 2006-03-02 | 2014-06-24 | Cisco Technology, Inc. | System and method for displaying participants in a videoconference between locations |
CN101496387B (zh) | 2006-03-06 | 2012-09-05 | 思科技术公司 | 用于移动无线网络中的接入认证的***和方法 |
US7692680B2 (en) * | 2006-04-20 | 2010-04-06 | Cisco Technology, Inc. | System and method for providing location specific sound in a telepresence system |
US7532232B2 (en) * | 2006-04-20 | 2009-05-12 | Cisco Technology, Inc. | System and method for single action initiation of a video conference |
US7710448B2 (en) * | 2006-04-20 | 2010-05-04 | Cisco Technology, Inc. | System and method for preventing movement in a telepresence system |
US20070250567A1 (en) * | 2006-04-20 | 2007-10-25 | Graham Philip R | System and method for controlling a telepresence system |
US7679639B2 (en) * | 2006-04-20 | 2010-03-16 | Cisco Technology, Inc. | System and method for enhancing eye gaze in a telepresence system |
US7707247B2 (en) * | 2006-04-20 | 2010-04-27 | Cisco Technology, Inc. | System and method for displaying users in a visual conference between locations |
JP4228010B2 (ja) * | 2006-09-29 | 2009-02-25 | Necエンジニアリング株式会社 | テレビ会議装置 |
US8792005B2 (en) * | 2006-11-29 | 2014-07-29 | Honeywell International Inc. | Method and system for automatically determining the camera field of view in a camera network |
US8085290B2 (en) * | 2006-12-06 | 2011-12-27 | Cisco Technology, Inc. | System and method for displaying a videoconference |
JP4845715B2 (ja) * | 2006-12-22 | 2011-12-28 | キヤノン株式会社 | 画像処理方法、画像処理装置、プログラム、及び記憶媒体 |
JP3132386U (ja) * | 2007-03-26 | 2007-06-07 | 株式会社三菱東京Ufj銀行 | Tv会議用デジタルカメラ |
US8203591B2 (en) | 2007-04-30 | 2012-06-19 | Cisco Technology, Inc. | Method and system for optimal balance and spatial consistency |
US8253770B2 (en) * | 2007-05-31 | 2012-08-28 | Eastman Kodak Company | Residential video communication system |
EP2007141B1 (en) * | 2007-06-20 | 2018-11-21 | Provenance Asset Group LLC | A system and method for providing a video conference |
NO327899B1 (no) * | 2007-07-13 | 2009-10-19 | Tandberg Telecom As | Fremgangsmate og system for automatisk kamerakontroll |
JP5228407B2 (ja) * | 2007-09-04 | 2013-07-03 | ヤマハ株式会社 | 放収音装置 |
JP5034819B2 (ja) | 2007-09-21 | 2012-09-26 | ヤマハ株式会社 | 放収音装置 |
US8203593B2 (en) * | 2007-12-28 | 2012-06-19 | Motorola Solutions, Inc. | Audio visual tracking with established environmental regions |
US8379076B2 (en) * | 2008-01-07 | 2013-02-19 | Cisco Technology, Inc. | System and method for displaying a multipoint videoconference |
US8355041B2 (en) | 2008-02-14 | 2013-01-15 | Cisco Technology, Inc. | Telepresence system for 360 degree video conferencing |
US8797377B2 (en) * | 2008-02-14 | 2014-08-05 | Cisco Technology, Inc. | Method and system for videoconference configuration |
US8319819B2 (en) | 2008-03-26 | 2012-11-27 | Cisco Technology, Inc. | Virtual round-table videoconference |
US8390667B2 (en) | 2008-04-15 | 2013-03-05 | Cisco Technology, Inc. | Pop-up PIP for people not in picture |
US8694658B2 (en) | 2008-09-19 | 2014-04-08 | Cisco Technology, Inc. | System and method for enabling communication sessions in a network environment |
KR101249737B1 (ko) * | 2008-12-03 | 2013-04-03 | 한국전자통신연구원 | 움직이는 카메라 환경에서의 물체 추적 장치 및 그 방법 |
US8659637B2 (en) | 2009-03-09 | 2014-02-25 | Cisco Technology, Inc. | System and method for providing three dimensional video conferencing in a network environment |
US8477175B2 (en) * | 2009-03-09 | 2013-07-02 | Cisco Technology, Inc. | System and method for providing three dimensional imaging in a network environment |
CN102414717B (zh) * | 2009-04-29 | 2014-06-25 | 皇家飞利浦电子股份有限公司 | 选择相机的最佳观察角位置的方法 |
US20110119597A1 (en) * | 2009-05-09 | 2011-05-19 | Vivu, Inc. | Method and apparatus for capability-based multimedia interactions |
US8659639B2 (en) | 2009-05-29 | 2014-02-25 | Cisco Technology, Inc. | System and method for extending communications between participants in a conferencing environment |
US8175335B2 (en) * | 2009-06-17 | 2012-05-08 | Sony Corporation | Content adaptive detection of images with stand-out object |
US9082297B2 (en) | 2009-08-11 | 2015-07-14 | Cisco Technology, Inc. | System and method for verifying parameters in an audiovisual environment |
US8350891B2 (en) | 2009-11-16 | 2013-01-08 | Lifesize Communications, Inc. | Determining a videoconference layout based on numbers of participants |
US9225916B2 (en) | 2010-03-18 | 2015-12-29 | Cisco Technology, Inc. | System and method for enhancing video images in a conferencing environment |
USD626103S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Technology, Inc. | Video unit with integrated features |
USD626102S1 (en) | 2010-03-21 | 2010-10-26 | Cisco Tech Inc | Video unit with integrated features |
CN102244759A (zh) * | 2010-05-12 | 2011-11-16 | 宇泰华科技股份有限公司 | 直觉式交谈方法 |
US9313452B2 (en) | 2010-05-17 | 2016-04-12 | Cisco Technology, Inc. | System and method for providing retracting optics in a video conferencing environment |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8896655B2 (en) | 2010-08-31 | 2014-11-25 | Cisco Technology, Inc. | System and method for providing depth adaptive video conferencing |
US8599934B2 (en) | 2010-09-08 | 2013-12-03 | Cisco Technology, Inc. | System and method for skip coding during video conferencing in a network environment |
US8599865B2 (en) | 2010-10-26 | 2013-12-03 | Cisco Technology, Inc. | System and method for provisioning flows in a mobile network environment |
US8699457B2 (en) | 2010-11-03 | 2014-04-15 | Cisco Technology, Inc. | System and method for managing flows in a mobile network environment |
US8730297B2 (en) | 2010-11-15 | 2014-05-20 | Cisco Technology, Inc. | System and method for providing camera functions in a video environment |
US9143725B2 (en) | 2010-11-15 | 2015-09-22 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US8902244B2 (en) | 2010-11-15 | 2014-12-02 | Cisco Technology, Inc. | System and method for providing enhanced graphics in a video environment |
US9338394B2 (en) | 2010-11-15 | 2016-05-10 | Cisco Technology, Inc. | System and method for providing enhanced audio in a video environment |
US8542264B2 (en) | 2010-11-18 | 2013-09-24 | Cisco Technology, Inc. | System and method for managing optics in a video environment |
US8723914B2 (en) | 2010-11-19 | 2014-05-13 | Cisco Technology, Inc. | System and method for providing enhanced video processing in a network environment |
US9111138B2 (en) | 2010-11-30 | 2015-08-18 | Cisco Technology, Inc. | System and method for gesture interface control |
US8446455B2 (en) | 2010-12-08 | 2013-05-21 | Cisco Technology, Inc. | System and method for exchanging information in a video conference environment |
US8553064B2 (en) | 2010-12-08 | 2013-10-08 | Cisco Technology, Inc. | System and method for controlling video data to be rendered in a video conference environment |
USD678320S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682294S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678307S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD678308S1 (en) | 2010-12-16 | 2013-03-19 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682293S1 (en) | 2010-12-16 | 2013-05-14 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682864S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen with graphical user interface |
USD682854S1 (en) | 2010-12-16 | 2013-05-21 | Cisco Technology, Inc. | Display screen for graphical user interface |
USD678894S1 (en) | 2010-12-16 | 2013-03-26 | Cisco Technology, Inc. | Display screen with graphical user interface |
US8692862B2 (en) | 2011-02-28 | 2014-04-08 | Cisco Technology, Inc. | System and method for selection of video data in a video conference environment |
US8670019B2 (en) | 2011-04-28 | 2014-03-11 | Cisco Technology, Inc. | System and method for providing enhanced eye gaze in a video conferencing environment |
US8786631B1 (en) | 2011-04-30 | 2014-07-22 | Cisco Technology, Inc. | System and method for transferring transparency information in a video environment |
US8934026B2 (en) | 2011-05-12 | 2015-01-13 | Cisco Technology, Inc. | System and method for video coding in a dynamic environment |
US8947493B2 (en) | 2011-11-16 | 2015-02-03 | Cisco Technology, Inc. | System and method for alerting a participant in a video conference |
US8682087B2 (en) | 2011-12-19 | 2014-03-25 | Cisco Technology, Inc. | System and method for depth-guided image filtering in a video conference environment |
US9681154B2 (en) | 2012-12-06 | 2017-06-13 | Patent Capital Group | System and method for depth-guided filtering in a video conference environment |
US8957940B2 (en) | 2013-03-11 | 2015-02-17 | Cisco Technology, Inc. | Utilizing a smart camera system for immersive telepresence |
US9843621B2 (en) | 2013-05-17 | 2017-12-12 | Cisco Technology, Inc. | Calendaring activities based on communication processing |
CN106576153A (zh) * | 2014-01-10 | 2017-04-19 | 旋转型机器人有限公司 | 用于在视频会议操作期间控制机器人支架的***及方法 |
US10691398B2 (en) * | 2014-09-30 | 2020-06-23 | Accenture Global Services Limited | Connected classroom |
JP6761230B2 (ja) * | 2015-08-21 | 2020-09-23 | キヤノン株式会社 | 画像処理装置、その制御方法、プログラム及び撮像装置 |
US9756286B1 (en) | 2016-08-05 | 2017-09-05 | Microsoft Technology Licensing, Llc | Communication event |
JP2021052325A (ja) * | 2019-09-25 | 2021-04-01 | キヤノン株式会社 | 撮像装置、システム、撮像装置の制御方法、プログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05196425A (ja) * | 1992-01-21 | 1993-08-06 | Ezel Inc | 人間の3次元位置検出方法 |
JP3298072B2 (ja) * | 1992-07-10 | 2002-07-02 | ソニー株式会社 | ビデオカメラシステム |
US5742329A (en) * | 1992-10-26 | 1998-04-21 | Canon Kabushiki Kaisha | Image pickup system and communication system for use in video conference system or the like |
CN1135823A (zh) | 1993-10-20 | 1996-11-13 | 电视会议***公司 | 自适应电视会议*** |
US5508734A (en) | 1994-07-27 | 1996-04-16 | International Business Machines Corporation | Method and apparatus for hemispheric imaging which emphasizes peripheral content |
DE19511713A1 (de) | 1995-03-30 | 1996-10-10 | C Vis Computer Vision Und Auto | Verfahren und Vorrichtung zur automatischen Bildaufnahme von Gesichtern |
US5959667A (en) * | 1996-05-09 | 1999-09-28 | Vtel Corporation | Voice activated camera preset selection system and method of operation |
JPH1051755A (ja) * | 1996-05-30 | 1998-02-20 | Fujitsu Ltd | テレビ会議端末の画面表示制御装置 |
US6343141B1 (en) * | 1996-10-08 | 2002-01-29 | Lucent Technologies Inc. | Skin area detection for video image systems |
US6072522A (en) * | 1997-06-04 | 2000-06-06 | Cgc Designs | Video conferencing apparatus for group video conferencing |
JPH1139469A (ja) * | 1997-07-24 | 1999-02-12 | Mitsubishi Electric Corp | 顔画像処理装置 |
US6148092A (en) * | 1998-01-08 | 2000-11-14 | Sharp Laboratories Of America, Inc | System for detecting skin-tone regions within an image |
US6275614B1 (en) * | 1998-06-26 | 2001-08-14 | Sarnoff Corporation | Method and apparatus for block classification and adaptive bit allocation |
US6263113B1 (en) * | 1998-12-11 | 2001-07-17 | Philips Electronics North America Corp. | Method for detecting a face in a digital image |
-
1998
- 1998-12-22 US US09/218,554 patent/US7057636B1/en not_active Expired - Fee Related
-
1999
- 1999-12-14 JP JP2000590377A patent/JP2002534009A/ja active Pending
- 1999-12-14 ES ES99964595T patent/ES2301256T3/es not_active Expired - Lifetime
- 1999-12-14 WO PCT/EP1999/010066 patent/WO2000038414A1/en active IP Right Grant
- 1999-12-14 KR KR1020007009232A patent/KR100699704B1/ko not_active IP Right Cessation
- 1999-12-14 EP EP99964595A patent/EP1057326B1/en not_active Expired - Lifetime
- 1999-12-14 CN CNB998053384A patent/CN1156151C/zh not_active Expired - Fee Related
- 1999-12-14 DE DE69938173T patent/DE69938173T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002534009A (ja) | 2002-10-08 |
EP1057326B1 (en) | 2008-02-20 |
CN1156151C (zh) | 2004-06-30 |
DE69938173D1 (de) | 2008-04-03 |
CN1298601A (zh) | 2001-06-06 |
DE69938173T2 (de) | 2009-02-19 |
EP1057326A1 (en) | 2000-12-06 |
WO2000038414A1 (en) | 2000-06-29 |
KR100699704B1 (ko) | 2007-03-27 |
KR20010041177A (ko) | 2001-05-15 |
US7057636B1 (en) | 2006-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2301256T3 (es) | Determinacion automatica de posiciones preajustadas correspondientes a participantes de videoconferencias. | |
ES2906619T3 (es) | Composición y escalamiento de subescenas separadas angularmente | |
US9692964B2 (en) | Modification of post-viewing parameters for digital images using image region or feature information | |
US8675991B2 (en) | Modification of post-viewing parameters for digital images using region or feature information | |
JP5088507B2 (ja) | 同一性判定装置、同一性判定方法および同一性判定用プログラム | |
US20090003708A1 (en) | Modification of post-viewing parameters for digital images using image region or feature information | |
CN110572570B (zh) | 一种多人场景的智能识别拍摄的方法、***及存储介质 | |
CN110545378A (zh) | 一种多人场景的智能识别拍摄的***和方法 | |
US20230328382A1 (en) | Image processing device and electronic device | |
US20240236474A1 (en) | Systems and methods for obtaining a smart panoramic image | |
JP7334536B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6820489B2 (ja) | 画像処理装置、および、画像処理プログラム | |
JP6450604B2 (ja) | 画像取得装置及び画像取得方法 | |
Liang et al. | Video2Cartoon: A system for converting broadcast soccer video into 3D cartoon animation | |
KR100438303B1 (ko) | 객체 추출방법 | |
Sun et al. | Whac-a-mole: A head detection scheme by estimating the 3D envelope from depth image | |
CN114924645A (zh) | 基于手势识别的交互方法及*** |