ES2395102B1

ES2395102B1 - Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real

Info

Publication number: ES2395102B1
Application number: ES201001297A
Authority: ES
Inventors: Jaume Civit; Óscar Divorra
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Priority date: 2010-10-01
Filing date: 2010-10-08
Publication date: 2013-10-18
Anticipated expiration: 2030-10-08
Also published as: EP2622574A1; WO2012041419A1; US20130243313A1; ES2395102A1

Abstract

Método y sistema para segmentación de primer plano de imágenes en tiempo real.#El método comprende:#- generar un conjunto de funciones de coste para modelos o clases de segmentación de primer plano, de segundo plano y de sombra, en el que los modelos de segmentación de segundo plano y de sombra son una función de distorsión cromática y distorsión de brillo y color, y en el que dichas funciones de coste están relacionadas con medidas de probabilidad de que una región o un pixel dado pertenezca a cada una de dichas clases de segmentación; y#- aplicar a datos de pixeles de una imagen dicho conjunto de funciones de coste generadas;#El método comprende además definir dichos funcionales de coste de segmentación de segundo plano y de sombra introduciendo información de profundidad de la escena que ha adquirido dicha imagen.#El sistema comprende medios de cámara previstos para adquirir, a partir de una escena, información de color y profundidad, y medios de procesamiento previstos para llevar a cabo dicha segmentación de primer plano mediante elementos de hardware y/o software que implementan el método.

Description

MÉTODO Y SISTEMA PARA SEGMENTACIÓN DE PRIMER PLANO DE IMÁGENES

EN TIEMPO REAL

La presente invención se refiere, en general, en un primer aspecto, a un método para segmentación de primer plano de imágenes en tiempo real, basándose en la aplicación de un conjunto de funciones de coste y, más en particular, a un método que comprende definir dichas funciones de coste introduciendo información de color y profundidad de la escena que han adquirido la imagen o imágenes analizadas.

Un segundo aspecto de la invención se refiere a un sistema adaptado para implementar el método del primer aspecto, preferiblemente mediante procesamiento paralelo.

Estado de la técnica anterior

La: segmentación de primer plano es una clave de

funcionamiento: para un amplio intervalo de aplicaciones

multimedia.: Entre otras, la reconstrucción en 3D basada en

siluetas: y la estimación de profundidad en tiempo real para

videoconferencias en 3D son aplicaciones que pueden beneficiarse mucho de segmentaciones de primer plano sin parpadeo con precisión en los bordes y flexibles respecto a los cambios de ruido y sombra de primer plano. Sin embargo, la segmentación de primer plano basada en colores simples, aunque puede basarse en diseños de algoritmo de una robustez interesante, puede tener problemas en regiones con sombras sobre el segundo plano o en áreas de primer plano con una baja diferencia de color con respecto al segundo plano. El uso adicional de información de profundidad puede tener una importancia clave con el fin de solucionar tales situaciones ambiguas.

Además, la segmentación basada sólo en profundidad no puede proporcionar un contorno de primer plano preciso y tiene problemas en regiones oscuras. Esto se ve influido en gran medida por la calidad de los datos Z/de profundidad obtenidos

por sistemas de adquisición de profundidad actuales tales como

cámaras: ToF (Time of Flight, Tiempo de Vuelo) tales como SR4000.

Además,: sin información de color, las sombras de modelado se

convierten: en un desafío significativo.

Antecedentes técnicos/tecnología existente

La segmentación de primer plano se ha estudiado desde una serie de puntos de vista (véanse las referencias [3, 4, 5, 6, 7]) , cada uno con sus ventajas y desventajas en cuanto a la robustez y las posibilidades para adecuarse apropiadamente a una GPGPU. Los modelos de clasificación locales, basados en píxeles y basados en umbrales [3, 4] pueden aprovechar las capacidades paralelas de arquitecturas de GPU ya que pueden adecuarse muy fácilmente a éstas. Por otro lado, carecen de robustez frente al ruido y sombras. Enfoques más elaborados que incluyen un postprocesamiento morfológico [5], aunque son más robustos, puede que no les resulte fácil aprovechar las GPU debido a su naturaleza de procesamiento secuencial. Además, utilizan suposiciones fuertes con respecto a la estructura de los objetos, lo que se convierte en una segmentación errónea cuando el objeto de primer plano incluye huecos cerrados. Enfoques basados de manera más global pueden adecuarse mejor tal como en el documento [6]. Sin embargo, el marco estadístico propuesto es demasiado simple y conlleva a inestabilidades temporales del resultacto segmentado. Finalmente, modelos de segmentación muy elaborados que incluyen seguimiento temporal [7] pueden ser

demasiado complejos para adecuarse a sistemas en tiempo real. Ninguna de estas técnicas puede segmentar apropiadamente

primeros planos con grandes regiones con colores similares al segundo plano.

• [2, 3, 4, 5, 6]: son técnicas basadas en intensidad/color para segmentación de primer plano, de segundo plano y de sombra. La mayoría de los algoritmos se basan en modelos de color que separan el brillo de la componente de cromaticidad, o se basan en la sustracción de segundo

plano que pretende hacer frente a cambios de iluminación

local, tales como sombras y zonas iluminadas, así como

cambios de iluminación global. Algunos enfoques usan

etapas de reconstrucción morfológica con el fin de reducir

el ruido y una incorrecta clasificación suponiendo que las

formas de los objetos se definen apropiadamente a lo largo

de la mayor parte de sus contornos tras la detección

inicial, y considerando que los objetos son contornos

cerrados sin orificios en su interior. En algunos casos,

se introduce una etapa de optimización global con el fin

de maximizar la probabilidad de una clasificación

apropiada. En cualquier caso, ninguna de estas técnicas

puede segmentar apropiadamente los primeros planos con

grandes regiones con colores similares al segundo plano.

De hecho, situaciones ambiguas en las que el primer plano

y el segundo plano tienen colores similares conducirán a

clasificaciones erróneas.

• [13, 12] : introducen de cierta manera el uso de profundidad en su segmentación de primer plano. En los mismos, no obstante, se supone completamente que la profundidad determina el primer plano. De hecho, suponen que cuanto más está un objeto en la parte frontal, más probable será que se encuentre en el primer plano. En la práctica, esto puede ser incorrecto en muchas aplicaciones puesto que el segundo plano (que se entiende que son las componentes estáticas o permanentes en una escena) puede tener objetos que están más cerca de la cámara que el primer plano (u objeto de interés que va a segmentarse) . Además, éstos carecen de una fusión de información de profundidad y color al no aprovechar la disponibilidad de información visual multimodal.

Problemas con las soluciones existentes En general, las soluciones actuales presentan problemas a

la hora de integrar una segmentación de primer plano buena,

robusta y flexible con eficacia computacional. O bien los métodos disponibles son demasiado simples, o bien son demasiado complejos, intentando tener en cuenta demasiados factores en la decisión de si cierta cantidad de datos de imagen es de primer plano o de segundo plano. Éste es el caso en la visión general del estado de la técnica que se ha expuesto en el presente documento. Véase un comentario individualizado:

•: [2, 3, 4, 5, 6]: ninguna de estas técnicas puede segmentar apropiadamente primeros planos con grandes regiones con colores similares al segundo plano. De hecho, situaciones ambiguas en las que el primer plano y el segundo plano tienen colores similares conducirán a clasificaciones erróneas.

•: [13, 12 J : introducen de cierta manera el uso de profundidad en su segmentación de primer plano. En los mismos, no obstante, se supone completamente que la profundidad determina el primer plano. De hecho, suponen que cuanto más está un objeto en la parte frontal, más probable será que se encuentre en el primer plano. En la práctica, esto puede ser incorrecto en muchas aplicaciones puesto que el segundo plano (que se entiende que son las componentes estáticas o permanentes en una escena) puede tener objetos que están más cerca de la cámara que el primer plano (u objeto de interés que va a segmentarse) . Además, éstos carecen de una fusión de información de profundidad y color al no aprovechar la disponibilidad de información visual multimodal. Todas estas técnicas no pueden solucionar la segmentación

cuando el primer plano contiene grandes regiones con colores que son muy similares al segundo plano.

Descripción de la invención Es necesario ofrecer una alternativa al estado de la técnica que rellene los vacíos que se encuentran en el mismo,

superando las limitaciones expresadas anteriormente en el presente documento, que permita tener un marco de segmentación para hardware habilitado en GPU con calidad mejorada y un alto

rendimiento: y teniendo en cuenta la información tanto de

profundidad: como de color.

Con: este fin, la presente invención proporciona, en un

primer: aspecto, un método para segmentación de primer plano de

imágenes: en tiempo real, que comprende:

-generar: un conjunto de funciones de coste para clases de

segmentación: de primer plano, de segundo plano y de sombra, en

el que los costes de segmentación de segundo plano y de sombra se basan en distorsión cromática y distorsión de brillo y color, y en el que dichas funciones de coste están relacionadas con medidas de probabilidad de que una región o píxel dado pertenezca a cada una de dichas clases de segmentación; y

aplicar a los datos de píxeles de una imagen dicho conjunto de funciones de coste generadas.

El método del primer aspecto de la invención difiere, de manera característica, de los métodos de la técnica anterior, en que comprende definir dichos funcionales de coste de segmentación de segundo plano y de sombra introduciendo información de profundidad de la escena que ha adquirido dicha imagen.

En una realización del método del primer aspecto de la invención dicha información de profundidad es una información de profundidad procesada obtenida adquiriendo información de profundidad inicial con una cámara de tiempo de vuelo, ToF, y procesándola para desdistorsionarla, rectificarla y ajustarla a escala de manera ascendente para adecuarla con contenido de color, respecto a dicha imagen, capturada con una cámara a color. En una realización alternativa, el método comprende adquirir tanto contenido de color con respecto a dicha imagen como dicha información de profundidad con una única cámara que puede adquirir y suministrar información de profundidad y color.

En una realización, el método según la invención comprende

definir dichos modelos de segmentación según una formulación

bayesiana.

Según una realización, el método de la invención comprende, además de un modelado local de clases de primer plano, de segundo plano y de sombra llevado a cabo por dichas funciones de coste, en el que la estructura de imagen se aprovecha localmente, aprovechar la estructura espacial de contenido de al menos dicha imagen de una manera más global.

Dicho aprovechamiento de la estructura espacial local de

contenido: de al menos dicha imagen se lleva a cabo, en una

realización,: estimando los costes como un promedio sobre

regiones: de color homogéneo.

El método del primer aspecto de la invención comprende además, en una realización, aplicar una operación de algoritmo a las expresiones de probabilidad, o funciones de coste, generadas con el fin de derivar costes aditivos.

Según una realización, la estimación mencionada de costes de píxeles se lleva a cabo mediante las siguientes acciones secuenciales:

i) sobresegmentar la imagen usando criterios de color homogéneo basados en un enfoque de k-medias;

ii) forzar una correlación temporal en centroides de color de k-medias, con el fin de garantizar la estabilidad y consistencia temporal de segmentos homogéneos, y

iii) calcular dichas funciones de coste por segmento de color homogéneo.

Y dicho aprovechamiento de la estructura espacial de contenido de la imagen de una manera más global se lleva a cabo mediante la siguiente acción:

iv) usar un algoritmo de optimización para encontrar la mejor solución global posible optimizando costes.

En la siguiente sección se describirán diferentes realizaciones del método del primer aspecto de la invención, incluyendo funciones de coste específicas definidas según formulaciones bayesianas, y descripciones más detalladas de

dichas etapas i) a iv).

La presente invención proporciona por tanto un enfoque de segmentación de primer plano de profundidad-color híbrido robusto, en el que la información de profundidad y color se fusiona localmente con el fin de mejorar el rendimiento de segmentación, que puede aplicarse entre otras cosas, a un sistema de telepresencia de múltiples perspectivas en 30 inmersivo para comunicaciones entre muchos participantes con contacto visual con los ojos.

Tal como se dio a conocer anteriormente, la invención se basa en una minimización de costes de un conjunto de modelos de probabilidad (es decir de primer plano, de segundo plano y de sombra) por medio de, en una realización, propagación de creencias jerárquica.

En algunas realizaciones, que se explicarán detalladamente en una sección posterior, el método incluye reducción de valores atípicos mediante regularización en regiones sobresegmentadas. Se ha diseñado un conjunto híbrido de profundidad-color de modelos de coste bayesianos de segundo plano, de primer plano y de sombra para usarse dentro de un marco de campo aleatorio de Markov para su optimización.

La naturaleza iterativa del método lo hace ajustable a escala en cuanto a su complejidad, permitiéndole aumentar la capacidad de precisión y tamaño de imagen a medida que el hardware de computación se vuelve más rápido. En este método, el diseño de profundidad-color híbrido particular de modelos de coste y el algoritmo que implementa las acciones del método es particularmente adecuado para una ejecución eficaz en el nuevo hardware de GPGPU.

Un segundo aspecto de la invención proporciona un sistema para segmentación de primer plano de imágenes en tiempo real, que comprende medios de cámara previstos para adquirir imágenes a partir de una escena, incluyendo información de color, medios de procesamiento conectados a dicha cámara para recibir imágenes adquiridas por la misma y procesarlas para llevar a cabo una

segmentación de primer plano de imágenes en tiempo real.

El sistema del segundo aspecto de la invención difiere de los sistemas convencionales, de manera característica, en que dichos medios de cámara están previstos también para adquirir, a partir de dicha escena, información de profundidad, y en que dichos medios de procesamiento están previstos para llevar a cabo dicha segmentación de primer plano mediante elementos de hardware y/o software que implementan al menos parte de las acciones del método del primer aspecto, incluyendo dicha aplicación de dichas funciones de coste a datos de píxeles de imágenes.

En una realización, dichos elementos de hardware y/o software implementan las etapas i) a iv) del método del primer aspecto.

Dependiendo de la realización, dichos medios de cámara comprenden una cámara a color para adquirir dichas imágenes incluyendo información de color, y una cámara de tiempo de vuelo, ToF, para adquirir dicha información de profundidad, o los medios de cámara comprenden una única cámara que puede adquirir y suministrar información de color y profundidad.

Sea cual sea la realización, la cámara o cámaras usadas han de ser capaces de capturar información tanto de color como de profundidad, y ésta ha de procesarse en conjunto por el sistema proporcionado por esta invención.

Breve descripción de los dibujos

Las ventajas y características previas y otras se entenderán mejor a partir de la siguiente descripción detallada de realizaciones, algunas de ellas con referencia a los dibujos adjuntos, que deben considerarse de manera ilustrativa y no limitativa, en los que:

la figura 1 muestra esquemáticamente la funcionalidad de la invención, para una realización en la que un sujeto de primer plano se segmenta a partir del segundo plano, en la que las vistas a la izquierda corresponden a una segmentación de sólo el

color de: la escena, y las vistas a la derecha corresponden a una

segmentación: de profundidad y color híbrida de la escena, es

decir,: a la aplicación del método del primer aspecto de la

invención;

la: figura 2 es un diagrama de flujo algorítmico de una

segmentación: de secuencia de vídeo completa según una

realización del método: del primer aspecto de la invención;

la figura 3 es un diagrama de flujo algorítmico para segmentación de 1 fotograma; la figura 4 es una arquitectura de bloques algorítmica de segmentación; la figura 5 ilustra una realización del sistema del segundo aspecto de la invención; y la figura 6 muestra, esquemáticamente, otra realización del sistema del segundo aspecto de la invención.

Descripción detallada de diversas realizaciones

La vista superior de la figura 1 muestra esquemáticamente una imagen en color (representada en gris para cumplir los requisitos formales de las oficinas de patentes) sobre la que se ha aplicado el método del primer aspecto de la invención, con el fin de obtener el sujeto de primer plano segmentado a partir del segundo plano, tal como se ilustra mediante la vista inferior a la derecha de la figura 1, realizando una secuencia cuidadosamente estudiada de operaciones de procesamiento de imágenes que llevan a un enfoque mejorado y más flexible para la segmentación de primer plano (entendiéndose el primer plano como el conjunto de objetos y superficies que se sitúan delante de un segundo plano).

La funcionalidad que implementa esta invención se describe claramente mediante las vistas a la derecha de la figura 1, en las que un sujeto de primer plano se segmenta a partir del segundo plano. La imagen superior a la derecha representa la escena, la imagen intermedia a la derecha muestra el segundo plano (negro), la sombra (gris) y el primer plano con la textura superpuesta, la imagen inferior a la derecha muestra lo mismo que la intermedia pero con el primer plano etiquetado en blanco.

Al comparar dichas vistas intermedia e inferior a la derecha con las vistas intermedia e inferior a la izquierda, correspondientes a una segmentación de sólo color, puede observarse claramente cómo las vistas a la derecha obtenidas con el método del primer aspecto de la invención mejoran de manera significativa el resultado obtenido.

De hecho, el color claro de la camisa del sujeto de la figura 1 hace difícil que un algoritmo de segmentación de sólo color segmente apropiadamente el primer plano a partir del segundo plano y a partir de la sombra. Básicamente, si se intenta hacer que el algoritmo sea más sensible para seleccionar el primer plano sobre la camisa, entonces mientras que la segmentación sigue siendo mala para el primer plano, las regiones de la sombra en la pared se fusionan en el primer plano, tal como es el caso de las vistas intermedia e inferior a la izquierda, en las que áreas grises y negras pasan sobre el cuerpo del sujeto.

La fusión de sombras en el primer plano no ocurre en las vistas intermedia e inferior a la derecha de la figura 1, lo que demuestra que por medio de la fusión de datos de color y profundidad la segmentación de primer plano parece ser mucho más robusta, y los datos de color de alta resolución garantizan una buena precisión de los bordes y una segmentación de áreas oscuras apropiada.

En el método del primer aspecto de la invención, el proceso de segmentación se plantea como un problema de minimización de costes. Para un pixel dado, se deriva un conjunto de costes a partir de sus probabilidades de pertenecer a las clases de primer plano, de segundo plano o de sombra. A cada pixel se le asignará la etiqueta que tiene el coste asociado más bajo:

(1)

PixelLabel (e) argmin {Costa (e)}

aE{BG,FG,SH}

Para calcular estos costes, se dan una serie de pasos de manera que tengan el menor ruido y la menor cantidad de valores atípicos posible. En esta invención, esto se hace calculando costes región a región en áreas de color homogéneo,

temporalmente: coherentes, seguido de un procedimiento de

optimización: robusto. Para conseguir una buena capacidad de

discriminación: entre segundo plano, primer plano y sombra, se

han diseñado costes bayesianos de segundo plano, de primer plano y de sombra basándose en la fusión de información de color y profundidad.

Con el fin de definir el conjunto de funciones de coste correspondientes a las tres clases de segmentación, se han construido según el documento [5]. Sin embargo, según el método de la invención, las definiciones de costes de segundo plano y de sombra se redefinen para hacerlos más precisos y reducir la inestabilidad temporal en la fase de clasificación. En esta invención, los funcionales de coste de segundo plano y de sombra introducen información adicional que tiene en cuenta la información de profundidad de una cámara ToF. Para ello, se ha vuelto a recurrir al documento [3] para así derivar modelos de probabilidad de segundo plano y de sombra equivalentes basándose en medidas de distorsión cromática (3), de distancia de color y brillo (2). Tal como se muestra a continuación, un término de diferencia de profundidad se incluye también en las expresiones de coste de segundo plano y de sombra para tener en cuenta la información en 30. A diferencia del documento [3] sin embargo, en el que los funcionales de clasificación se definen totalmente para funcionar en un clasificador basado en umbrales, las expresiones de coste del método de la invención se formulan desde un punto de vista bayesiano. Esto se realiza de manera que se derivan costes aditivos después de aplicar el logaritmo a las expresiones de probabilidad halladas. Gracias a esto, los funcionales de coste se usan entonces en el marco de optimización elegido para esta invención. En un ejemplo, la distorsión de color y brillo (con respecto a un modelo de

segundo plano entrenado) se definen de la siguiente manera. En

primer lugar, el brillo (BD) es tal que

er · erm + eg · e9m + eb · ebm (2)

BD(C) =

er~ + eg~ + eb~

es un color de segmento o píxel con

Crn = { Crrn, Cgrn, Cbrn} es la media entrenada correspondiente para el color de segmento o píxel en el modelo de segundo plano entrenado.

La distorsión cromática puede expresarse simplemente como:

eD(C) (Cr-BD(C) · Crm)2 + (C9 -BD(C)· <3l

J(

... egm)2+ (eb-BD(C) · ebm)2).

Basándose en esto, el método comprende definir el coste para el segundo plano como:

....

IIC-Cmll 2 CD(C) 2 (4)

CosiBc(C)

2 + 2 +

5 · am · K1 5 · aCDm · K2

IIToF-ToFmll 2

5. afoFm. /(5

donde a2 representa la varianza de ese píxel o segmento en el

rn 2 segundo plano, y acDm es la correspondiente a la distorsión cromática, es la varianza de un modelo de profundidad de segundo plano entrenado, ToF es la profundidad medida y ToFm es la media de profundidad entrenada para un píxel o segmento dado en el segundo plano. Al igual que el documento [ 5] , el coste de primer plano puede definirse simplemente como:

(5)

(e-) 16.64 · Ka

eOStFG = .

El coste relativo a la probabilidad de sombra se define

mediante el método del primer aspecto de la invención como:

(6)

CostsH(C)

En (4), (5) y (6), K1 , K2 , K3 , K4 y K5 son constantes de proporcionalidad ajustable correspondientes a cada una de las distancias en uso en los costes anteriores. En esta invención, gracias a los factores de normalización en las expresiones, una vez fijados todos los parámetros Kx, los resultados se mantienen bastante independientes de la escena, sin necesidad de afinado adicional basado en el contenido.

Los funcionales de coste descritos anteriormente, aunque

pueden: aplicarse píxel a píxel de manera directa, no

proporcionarán: resultados suficientemente satisfactorios si no

se: usan en un marco computacional más estructurado. La

segmentación: robusta requiere, al menos, aprovechar la

estructura: espacial de contenido más allá de una medición de

costes píxel a píxel de clases de primer plano, de segundo plano y de sombra. Con este fin, en esta invención, los costes de píxeles se estiman localmente como un promedio respecto a regiones de color homogéneo, temporalmente estables [ 8] y entonces se regularizan adicionalmente a través de un algoritmo de optimización global tal como propagación de creencias

jerárquica. Esto se lleva a cabo mediante las etapas i) a i v) anteriormente indicadas.

En primer lugar, en la etapa i), la imagen se sobresegmenta usando criterios de color homogéneo. Esto se realiza mediante un enfoque de k-medias. Además, para garantizar la estabilidad y consistencia temporal de segmentos homogéneos, se fuerza una correlación temporal en centroides de color de k-medias en la etapa ii) (los centroides resultantes finales tras las

segmentación de k-medias de un marco se usan para inicializar la sobresegmentación del siguiente) . Entonces se calculan los costes de los modelos de segmentación por segmento de color, en la etapa iii). Según el método del primer aspecto de la invención, los costes calculados por segmento incluyen información de color así como información relacionada con la diferencia entre información de profundidad de primer plano con respecto al segundo plano.

Después de que se hayan calculado los costes de colorprofundidad, para llevar a cabo dicho aprovechamiento de manera más global, se lleva a cabo la etapa i v) , es decir usando un algoritmo de optimización, tal como propagación de creencias jerárquica [9], para encontrar la mejor solución global posible

(a: nivel de imagen) optimizando y regularizando costes.

Opcionalmente,: y después de que se haya llevado a cabo la

etapa: iv), el método comprende tomar la decisión final píxel a

píxel: o región a región sobre costes promediados finales

calculados: por regiones de color uniforme para refinir

adicionalmente: los límites de primer plano.

La figura 3 representa la arquitectura de bloques de un algoritmo que implementa dichas etapas i) a iv), y otras etapas, del método del primer aspecto de la invención.

Con el fin de usar la estructura espacial local de la imagen de una manera computacionalmente asequible, se han considerado varios métodos teniendo en cuenta también el hardware común habitualmente disponible en sistemas informáticos de consumo o de estaciones de trabajo. Para ello, aunque hay disponible un gran número de técnicas de segmentación de imagen, no son adecuadas para aprovechar la potencia de arquitecturas paralelas tal como las unidades de procesamiento gráfico (GPU) disponibles en los ordenadores de hoy en día. Sabiendo que la segmentación inicial sólo va a usarse como una fase de soporte para una computación adicional, un buen enfoque para dicha etapa i) es una segmentación basada en agrupamiento de k-medias [11]. El agrupamiento de k-medias es un algoritmo muy conocido para el

análisis de agrupamientos usado en numerosas aplicaciones. Dado un grupo de muestras (x1 , x2 , ... , Xn), donde cada muestra es un vector real de d dimensiones, en este caso (R,G,B, x, y), donde R, G y B son componentes de color de pixel, y x, y son sus coordenadas en el espacio de imagen, se pretende dividir las n muestras en k conjuntos S = S1, S2, ••• , Sk de manera que:

k

arg min L:: L:: IIX; -J.Li 11 ,

S i=l XjESí

donde J.li es la media de puntos en Si. El agrupamiento es un proceso que tarda mucho tiempo, sobre todo para conjuntos de datos grandes.

El algoritmo de k-medias común continúa alternando entre etapas de asignación y actualización:

• Asignación: Asigna cada muestra al agrupamiento con la media más próxima.

{X;: IIX;-J.L~t)ll < IIX;-J.L~!>II, ... Vi* = 1, ....k}

• Actualización: Calcula las nuevas medias para que sean el centroide del agrupamiento.

El algoritmo converge cuando las asignaciones ya no cambian.

Según el método del primer aspecto de la invención, dicho enfoque de k-medias es una segmentación basada en agrupamiento de k-medias modificada para adecuarse mejor al problema y a la arquitectura de GPU particular (es decir número de núcleos,

hilos de ejecución por bloque, etc.) que va a usarse.

Modificar dicha segmentación basada en agrupamiento de kmedias comprende restringir el conjunto de asignación inicial a la arquitectura paralela de la GPU por medio de un número de conjuntos que también dependen del tamaño de imagen. La entrada se divide en una rejilla de n x n cuadrados, alcanzándose agrupamientos, donde N y M son las dimensiones de la imagen. La etapa de actualización inicial se calcula a partir de los píxeles en esas regiones. Con esto, se ayuda a que el algoritmo converja en un menor número de iteraciones.

Una segunda restricción introducida, como parte de dicha modificación de la segmentación basada en agrupamiento de k-medias, es en la etapa de asignación. Cada píxel sólo puede cambiar la asignación de agrupamiento a un agrupamiento de k-medias estrictamente vecino de manera que se garantice la continuidad espacial.

La rejilla inicial, y el máximo número de iteraciones permitido, influye enormemente en el tamaño y la forma final de segmentos homogéneos. En estas etapas, n se refiere al tamaño de bloque usado en la ejecución de núcleos de proceso en la GPU. La restricción anterior lleva a:

donde N (i) es el vecindario del agrupamiento i (en otras palabras, el conjunto de agrupamientos que rodean el agrupamiento i), y es un vector que representa una muestra de

x1

píxel donde R G B representan componentes de color en

(R G B , ' 'x, y) 1 1

cualquier espacio de color seleccionado y x, y son la posición espacial de dicho píxel en una de dichas imágenes.

En una realización preferida, el método del primer aspecto de la invención se aplica a una pluralidad de imágenes correspondientes a fotogramas diferentes y consecutivos de una secuencia de vídeo.

Para secuencias de vídeo en las que hay una fuerte

correlación temporal de un fotograma a otro, el método comprende además usar centroides resultantes finales tras la segmentación de k-medias de un fotograma para inicializar la sobresegmentación del siguiente, consiguiendo así dicho forzado de una correlación temporal en centroides de color de k-medias, para garantizar la estabilidad y consistencia temporal de segmentos homogéneos de la etapa ii) En otras palabras, esto ayuda a acelerar aún más la convergencia de la segmentación inicial al tiempo que también mejora la consistencia temporal del resultado final entre fotogramas consecutivos.

Las regiones resultantes de la primera etapa de sobresegmentación del método de la invención son pequeñas pero suficientemente grandes para tener en cuenta la estructura espacial local de la imagen en el cálculo. En cuanto a la implementación, en una realización de esta invención, todo el proceso de segmentación se desarrolla en CUDA (extensiones NVIDIA C para sus tarjetas gráficas). Cada etapa, asignación y actualización, se construye como núcleos CUDA para procesamiento paralelo. Cada uno de los hilos de ejecución de la GPU trabaja sólo sobre los píxeles dentro de un agrupamiento. Los datos de centroide resultantes se almacenan como memoria de textura mientras se evita una desalineación de memoria. Un núcleo CUDA para la etapa de asignación almacena la decisión por píxel en un registro. El núcleo CUDA de actualización consulta el registro previamente almacenado en la memoria de textura y calcula el nuevo centroide para cada agrupamiento. Puesto que el tiempo

real: es un requisito para nuestro objetivo, el número de

iteraciones: puede limitarse a n, siendo n el tamaño de la

rejilla de: inicialización en esta realización particular.

Después de la segmentación geométrica inicial, la siguiente etapa es la generación de los promedios región a región para distorsión cromática (CD) , brillo (BD) y otras estadísticas requeridas en costes de primer plano/segundo plano/sombra. Después de esto, la siguiente etapa es encontrar una solución global del problema de segmentación de primer plano. Una vez que se ha considerado la estructura espacial local de la imagen a través de la regularización de los costes de estimación en los segmentos obtenidos mediante el método de agrupamiento de k

medias: adaptado, es necesario un algoritmo de minimización

global: para aprovechar la estructura espacial global que se

adecue: a las restricciones de tiempo real. Un algoritmo muy

conocido es el introducido en el documento [9], que implementa un enfoque de propagación de creencias jerárquica. De nuevo se usa una implementación CUDA de este algoritmo para maximizar el procesamiento paralelo en cada una de sus iteraciones. Específicamente, en una realización de esta invención se consideran tres niveles en la jerarquía con 8, 2 y 1 iteraciones por nivel (niveles desde una resolución más fina hasta una más basta) En una realización de la invención, pueden asignarse menos iteraciones para capas más bastas de la pirámide, con el fin de equilibrar la velocidad de convergencia respecto a las pérdidas de resolución en el resultado final. Un mayor número de iteraciones en niveles más bastos hace que todo el proceso converja más rápido pero también compromete la precisión del resultacto en pequeños detalles. Finalmente, el resultacto de la etapa de optimización global se usa para la clasificación basada en (1) , o bien pixel a pixel o bien región a región, con una reproyección en las regiones iniciales obtenidas del primer proceso de sobresegmentación con el fin de mejorar la precisión de los límites.

En una realización, el método de la invención comprende usar los resultactos de la etapa i v) para llevar a cabo una clasificación basada o bien pixel a pixel o bien región a región con una reproyección en el espacio de segmentación con el fin de mejorar la precisión de los límites de dicho primer plano.

En referencia ahora al diagrama de flujo de la figura 2, se muestra en el mismo un enfoque de segmentación general usado para procesar secuencialmente cada imagen, o fotograma de una secuencia de vídeo, según el método del primer aspecto de la

invención, en el que se realizan modelos de segundo plano basados en estadísticas de color y profundidad a partir de datos de segundo plano entrenados.

La figura 4 muestra el diagrama de bloques general relativo al método del primer aspecto de la invención. Básicamente muestra la conectividad entre los diferentes módulos funcionales que llevan a cabo el proceso de segmentación.

Como se observa en la imagen, cada fotograma de entrada se procesa para generar un primer resultado sobresegmentado de regiones conectadas. Esto se realiza en un proceso de segmentaciones de regiones homogéneas, que, entre otras cosas, puede basarse en un método de crecimiento de región usando

agrupamiento: basado en k-medias. Con el fin de mejorar la

consistencia: temporal y espacial, se almacenan parámetros de

segmentación: (tal como agrupamientos de k-medias) de un

fotograma: a otro con el fin de inicializar el proceso de

sobresegmentación: en el siguiente fotograma de entrada.

El primer resultacto sobresegmentado se usa entonces para generar un análisis estadístico región a región regularizado del fotograma de entrada. Esto se realiza región a región, de manera que las características de color, brillo, u otras, visuales se calculan en promedio (u otras alternativas tales como la mediana) por cada región. Tales estadísticas región a región se usan entonces para inicializar un modelo de costes de primer plano/segundo plano/sombra región a región o píxel a píxel. Este conjunto de costes por píxel o por región se optimiza entonces de manera cruzada mediante un algoritmo de optimización que, entre otros puede ser de propagación de creencias por ejemplo. En esta invención, una versión de profundidad rectificada y registrada de la imagen se introduce también para generar las estadísticas de costes para una estimación de costes de segmentación de color-profundidad conjunta.

Después de la optimización de los costes iniciales de primer plano/segundo plano/sombra, estos se analizan entonces con el fin de decidir qué es primer plano y qué es segundo plano. Esto se realiza o bien píxel a píxel o bien puede realizarse también región a región usando las regiones iniciales obtenidas de la sobresegmentación generada al inicio del proceso.

La reproyección anteriormente indicada en el espacio de segmentación, para mejorar la precisión de los límites del primer plano, también se incluye en el diagrama de la figura 4, obteniendo finalmente un segmento o una máscara de segmentación como el correspondiente a la vista intermedia a la derecha de la figura 1, y una escena enmascarada como la de la vista inferior a la derecha de la figura l.

La figura 3 representa el diagrama de flujo correspondiente a los procesos de segmentación llevados a cabo mediante el método del primer aspecto de la invención, para una realización que incluye diferentes alternativas, tales como la indicada por el cuadro disyuntivo, que pregunta si se realiza una reproyección de regiones para contornos más nítidos.

En relación con el sistema proporcionado por el segundo aspecto de la invención, que implica la captura de dos modalidades de una escena compuesta por datos de imagen de color y datos de imagen de profundidad, la figura 5 ilustra una realización básica del mismo, incluyendo una cámara a color para adquirir imágenes en color, una cámara de detección de profundidad para adquirir información de profundidad, una unidad de procesamiento constituida por los medios de procesamiento anteriormente indicados, y una salida y/o pantalla para entregar los resultados obtenidos.

Dicha unidad de procesamiento puede ser cualquier dispositivo con capacidad computacional, tal como hardware dedicado, un ordenador personal, y un sistema integrado, etc. y la salida de tal sistema después del procesamiento de los datos de entrada puede usarse para la visualización, o como entrada en otros sistemas y subsistemas que usan una segmentación de primer plano.

En algunas realizaciones, los medios de procesamiento están previstos también para generar imágenes tridimensionales reales y/o virtuales, a partir de siluetas generadas a partir de la segmentación de primer plano de imágenes, y visualizarlas a través de dicha pantalla.

En una realización, el sistema constituye o forma parte de un sistema de telepresencia.

Un ejemplo más detallado se muestra en la figura 6, en la que esto se representa después de la unidad de procesamiento que crea una versión segmentada híbrida (de color y profundidad) de la entrada y que como salida puede dar el resultado segmentado más, en caso necesario, datos adicionales en la entrada del módulo de segmentación. La entrada híbrida del módulo de segmentación de primer plano (una realización de esta invención) puede generarse mediante cualquier combinación de dispositivos que pueden generar modalidades de datos de imagen tanto de profundidad como color. En la realización de la figura 6, esto se genera mediante dos cámaras (una para color y la otra para profundidad, por ejemplo una cámara ToF). La salida puede usarse en al menos uno de los procesos descritos: analizador de imagen/vídeo, pantalla de segmentación, unidad de procesamiento de visión por ordenador, unidad codificadora de datos de imagen, etc.

Para implementar el sistema del segundo aspecto de la invención en un caso real, con el fin de capturar información de color y profundidad acerca de la escena, el inventor ha usado dos cámaras. De hecho, no está disponible ahora mismo en el mercado ninguna cámara de color + profundidad de HD real; y cámaras sensibles a la profundidad activas tales como ToF sólo están disponibles con una resolución bastante pequeña. Por tanto, para dicha implementación de una realización del sistema del segundo aspecto de la invención, se han usado una cámara de alta resolución 1338xl038 y una cámara SR4000 ToF. Para fusionar información tanto de color como de profundidad usando los costes anteriormente descritos, la información de profundidad de la cámara SR4000 ha de desdistorsionarse, rectificarse y ajustarse

a escala de manera ascendente para adecuarse con el contenido capturado de la cámara a color. Puesto que ambas cámaras tienen diferentes ejes ópticos, sólo pueden rectificarse apropiadamente para un intervalo de profundidad limitado. En este trabajo, la homografía aplicada en la imagen de profundidad se optimiza para adecuarse a la región de escena en la que van a realizarse pruebas.

En otras realizaciones, no ilustradas, una cámara híbrida puede usarse igualmente en las que la cámara puede suministrar ambas modalidades de datos de imagen: color y profundidad. En una realización de este tipo en la que una cámara puede suministrar información de color y profundidad sobre el mismo eje óptico, una rectificación no sería necesaria y no habría ninguna limitación respecto a la correspondencia de profundidad y color dependiente de la profundidad.

En un sistema más complejo, una realización de esta invención puede usarse como etapa intermedia para un procesamiento más complejo de los datos de entrada.

Esta invención es un enfoque novedoso para segmentación de primer plano robusta para funcionamiento en tiempo real en arquitecturas de GPU, y tiene las siguientes ventajas:

•: La invención incluye la fusión de información de

profundidad: con datos de color que hacen que la

segmentación: sea más robusta y flexible a primeros planos

con: propiedades de color similares con el segundo plano.

Además,: los funcionales de coste proporcionados en este

trabajo,: más el uso de regiones sobresegmentadas para

estimación: de estadísticas, han podido hacer que la

segmentación: de primer plano sea más estable en el espacio

y: el tiempo.

•: La invención aprovecha la estructura de imagen local y

global: para mejorar la calidad de segmentación, su

consistencia: y estabilidad espacial así como su

consistencia y: estabilidad temporal.

•: Este enfoque es adecuado para su combinación con otras

técnicas de visión por ordenador y procesamiento de imágenes tales como algoritmos de estimación de profundidad en tiempo real para aceleración de correspondencia estéreo, reducción de valores atípicos en región plana y mejora de límites de profundidad entre regiones.

•: Los modelos estadísticos proporcionados en esta invención, más el uso de regiones sobresegmentadas para estimación estadística han logrado hacer que la segmentación de primer plano sea más estable en espacio y tiempo, al tiempo que puede utilizarse en tiempo real en hardware de GPU actual disponible en el mercado.

•: La invención también proporciona la funcionalidad de ser "ajustable a escala" en cuanto a la complejidad. Esto es, la invención permite adaptar el equilibrio entre precisión de resultado final y complejidad computacional en función de al menos un valor escalar. Esto permite mejorar la calidad de la segmentación y la capacidad para procesar imágenes más grandes a medida que el hardware de GPU mejora cada vez más.

•: La invención proporciona un enfoque de segmentación que supera las limitaciones del estado de la técnica actualmente disponible. La invención no se basa en modelos de objetos de contorno cerrado ad hoc, y permite detectar y segmentar objetos de primer plano que incluyen huecos y contornos muy detallados.

•: La invención proporciona también una estructura algorítmica adecuada para un procesamiento fácil, de múltiples hilos de ejecución y de múltiples núcleos paralelos.

•: La invención proporciona un método de segmentación flexible a cambios de sombreado y flexible a áreas de primer plano con débil discriminación con respecto al segundo plano si estas áreas "débilesu son suficientemente pequeñas.

•: La invención no se basa en ningún modelo de alto nivel, lo que hace que pueda aplicarse de manera general a diferentes situaciones en las que se requiere segmentación de primer plano (independientemente de la escena o el objeto que vaya a segmentarse).

Un experto en la técnica puede introducir cambios y modificaciones en las realizaciones descritas sin apartarse del alcance de la invención tal como se define en las reivindicaciones adjuntas.

Referencias

[1] O. Divorra Escoda, J. Civit, F. Zuo, H. Belt, I. Feldmann, O. Schreer, E. Yellin, W. Ijsselsteijn, R. van Eijk, D. Espinola, P. Hagendorf, W. Waizenneger, y R. Braspenning, "Towards 3d-aware telepresence: Working on technologies behind the scene, 11 en New Frontiers in Telepresence workshop at ACM CSCW, Savannah, GA, febrero de 2010.

[2] C. L. Kleinke, "Gaze and eye contact: A research review, 11 Psychological Bulletin, vol. 100, págs. 78100, 1986. [3] A. Elgammal, R. Duraiswami, D.

Harwood,: y L. S. Davis, "Non-parametric model for

background: subtraction, 11 en Proceedings of

International: Conference on Computer Vision. Sept

1999,: IEEE Computer Society.

[3] T. Horpraset, D. Harwood, y L. Davis, "A statistical approach for real-time robust background subtraction and shadow detection, 11 en IEEE ICCV, Kerkyra, Grecia, 1999.

[4] J. L. Landabaso, M. Pard'as, y L.-Q. Xu, "Shadow removal wi th blob-based morphological reconstruction for error correction, 11 en IEEE ICASSP, Filadelfia, PA, EE.UU., marzo de 2005.

[5] J.-L. Landabaso, J.-e Pujol, T. Montserrat, D. Marimon, J. Civit, y O. Divorra, "A global probabilistic framework for the foreground, background and shadow classification task, 11 en IEEE ICIP, Cairo, noviembre de 2009.

[6] J. Gallego Vi la, "Foreground segmentation and tracking based on foreground and background modeling techniques11 , Tesis doctoral, Departamento de Procesamiento de Imágenes, Universidad Politécnica de Cataluña, 2009.

[7] I. Feldmann, O. Schreer, R. Shfer, F. Zuo, H. Belt, y O. Divorra Escoda, "Immersive multi-user 3d

video: cormnunication," en IBC, Amsterdam, Países

Bajos,: septiembre de 2009.

[8]: C. Lawrence Zitnick y Sing Bing Kang, "Stereo

for: imagebased rendering using image over

segmentation," en Interna tional Journal in Computer Vision, 2007.

[9] P. F. Felzenszwalb y D. P. Huttenlocher, "Efficient belief propagation for early vision," en CVPR, 2004, págs. 261-268.

[10] J. B. MacQueen, "Sorne methods for classification and analysis of mul tivariate observations," en Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Probability, L. M. Le Cam y J. Neyman, Eds. 1967, vol. 1, págs. 281-297, University of California Press.

[11] O. Schreer N. Atzpadin, P. Kauff, "Stereo analysis by hybrid recursive matching for real-time irmnersive video stereo analysis by hybrid recursive matching for real-time irmnersive video conferencing," vol. 14, n. 0 3, marzo de 2004.

[12] R. Crabb, C. Tracey, A. Puranik y J. Davis. Real-time foreground segmentation via range and colour imaging. En IEEE CVPR, Anchorage, Alaska, junio de 2008.

[13] A. Bleiweiss y M. Weman. Fusing time-of-flight depth and colour for real-time segmentation and tracking. En DAGM 2009 Workshop on Dynamic 3D Imaging, Saint Malo, Francia, octubre de 2009.

Claims

REIVINDICACIONES
1 .

Método para segmentación de primer plano de imágenes en

tiempo real, que comprende :

-generar un conjunto de funciones de coste para modelos o

clases de segmentación de primer pl ano, de segundo plano y

de sombra , en el que los funcionales de coste de

segmentación de segundo plano y de sombra son una función

de d i storsión cromática y distorsión de brillo y color, y

en el que dichas funciones de coste están relacionadas con

medidas de probabilidad de que una región o un pixel dado

pertenezca a cada una de dichas clases de segmentación; y

-aplicar a datos de pi xeles de una imagen dicho conjunto

de funciones de coste generadas ;

estando dicho método caracterizado porque comprende

definir dichos modelos de segmentación de segundo p l ano y

de sombra introduciendo información de profundidad de la

escena que ha adquirido dicha imagen .
2 .

Método según la reivindi cación L que comprende definir

dichos modelos de segmentación según una formulación

bayesiana.
3 .

Método según la reivindicación 2 , que comprende, además de

un modelado local de clases de primer p lano, de segundo

plano y de sombra llevado a cabo por dichas funciones de

coste en el que la estructura de imagen se aprovecha

localmente, aprovechar la estructura espacial de contenido

de al menos dicha imagen de una manera más global .
4.

Método según la reivindicación 3 , en el que dicho

aprovechamiento de la estruct.ura espacial local de

contenido de al menos dicha imagen se lleva a cabo

estimando los costes como un promedio sobre regiones de

color homogéneo .
5.

Método según cualquiera de las reivindicaciones

anteriores, que comprende aplicar una operación de

algoritmo a las expresiones de probabilidad, o funciones de

coste , generadas para derivar costes aditivos.
2.
6. Método según cualquiera de las reivindicaciones anteriores, que comprende definir dicha distorsión de brillo como :

Cr . Crrr¡ + Oy . Cgrn + eb . Cbm

BD(é) =

Cr~\ + Co~ + Cb~

donde e= {Cr,Cg,Cb } es un color de segmento o pixel con componentes rgb, y

ém = {Crm,Cgm>Cbm } es la media entrenada

correspondiente para el color de segmento o pixel en un

modelo de segundo plano entrenado.
7. Método según la reivindicación 6, que comprende definir dicha distorsión cromática como:

CD(C) = (Cr -BD(C) . Crm)2 + (Cg -BD(C).

J

... Cgn.)' + (Cb -BD(C). Cbm)2).
8. Método según la reivindicación 7, que comprende definir dicha función de coste para la clase de segmentación de segundo plano como :

donde Kt , K2 Y K5 son constantes de proporcionalidad ajustable correspondientes a las distancias en uso en

dicha función de coste de primer plano, representa la varianza de ese pixel o segmento en un modelo de segundo 2

plano

entrenado, G"CDrn es la correspondiente a la

distorsión

cromática, es la varianza de un modelo de

profundidad

de segundo plano entrenado, ToF es la

profundidad medida y ToFm es la media de profundidad entrenada para un segmento o pixel dado en el segundo

plano .
9 .

Método según la reívindicación 8 , que comprende definir

dicha función de coste para la clase de segmentación de

primer plano como :

5

16.64· K 3

5

donde K3 es una constante de proporcionalidad ajustable

corr espondiente a las distancias en uso en dicha función

10

de coste de primer plano .
10.

Método según la reivindicación 9 , que comprende definir

dicha función de coste para la clase de sombra corno :

15

donde K4 Y Ks son constantes de proporcionalidad ajustable

20

correspondientes a las distancias en uso en dicha función

de coste de sombra .
11 .

Método según la reivindicación 4, el que d icha estimación

de costes de pixeles se lleva a cabo mediante las

siguientes acciones secuenciales :

25

i) sobr esegmentar la imagen usando un criteri o de color

homogéneo basado en un enfoque de k-medias ;

ii) forzar una correlación temporal sobre centroides de

color de k-medias , con el fin de garantizar la estabilidad

y consistencia temporal de segmentos homogéneos ,

30

iii) calcular dichas funciones de coste por segmento de

color homogéneo ; y

en el que dicho aprovechamiento de la estructura espacial

de contenido de al menos dicha imagen de una manera más

global se lleva a cabo mediante la siguiente acción :

35

iv) usar un algoritmo de optimización par a encontrar la

mejor solución global posible optimizando costes .
12 . Método según la reivindicación 11, en el que dicho algoritmo de optimización es un algoritmo de propagación de creencias jerárquica .
13 . Método según la reivindicación 11 Ó 12 , que comprende,

5 después de que dicha etapa Lv) se haya llevado a cabo , tomar la decisión final pixel a píxel o región a región sobre costes promediados finales calculados sobre regiones de color uniforme para refinar adicional mente los límites de primer plano .
14. Método según la reivindicación 11, 12 6 13, en el que

dicho enfoque de k-medias es una segmentación basada en

agrupamiento de k-medias modificada para adaptarse a una arquit ectura de unidad de procesamiento gráfico, o GPU .

15 15 . Método según la reivindicación 14 , en e l que modificar dicha segmentación basada en agrupamiento de k-medias comprende restringir el conjunto de asignación inicial

(1l~1) " 1I~1) a la

n ~ arquitectura paralela de la GPU por medio de

un número de conj untos que también dependen del tamaño de 20

la imagen, mediante la división de la entrada en una rejilla de n x n cuadrados, donde n se refi ere al tamaño de bl oque usado en la ej ecución de núcleos de proceso dentro

(M xN)

de la GPU, logrando 1 agrupamientos , donde N y M son

n

las dimensiones de imagen, y Pi es la media de puntos en el conjunto de muestras s, , y calcular la etapa de actualización inicial de dicha segmentación basada en agrupamiento de k-medi as a partir de los píxeles en dichas reqiones cuadradas, de manera que un algoritmo que

implementa di cha segmentación basada en agrupamiento de kmedias modificada converge en un número inferior de iteraciones .
16 . Método según la reivindicación 15, en el que modificar

dicha segmentación basada en agrupamiento de k-medias 35

comprende además, en la etapa de asignación de dicha

segmentación basada

en agrupamiento de k-medias , restringir

los

agrupamientos a los que cada pixel puede cambiar la

asignación

de agrupamiento a un agrupamiento de k-medias

estrictamente

vecino, de manera que se garantiza la

5

continuidad espacial .
17 .

Método según la reivindicaci ón 16, en el que d i chas

restricciones

llevan a la siguiente etapa de asignaci ón

modificada :

10

donde

N (i) es el vecindario de l agrupamiento i , y Xj es un

vector que

repr esenta una muestra de pixel (R,G,B,x,y) ,

donde

R, G, B representan componentes de color en

cualquier

espacio de color seleccionado y x, y son la

15

posi ción espacial de dicho pixel en una de dichas

imágenes .
18.

Método según cualquiera de las rei vindicaciones

anteriores,

en el que se aplica a una pluralidad de

imágenes

correspondientes a fotogramas diferentes y

20

consecutivos de una secuencia de vídeo .
19 .

Método según la reivindicación 18 , cuando depende de la

reivindicación

17, en el que para secuencias de video en

las

que hay una fuerte correl ación temporal de un fotograma

a

otro, el método comp rende usar centroides resultantes

25

finales después de la segmentación de k-medias de un

fotograma

para inicializar la sobresegmentaci6n del

siguiente,

consiguiendo asi dicho forzado de una

correlación temporal sobre centroides de

color de k-medias ,

con

el fin de garantizar la estabilidad y consistencia

30

temporal de segmentos homogéneos .
20 .

Método según la reivindicación 19, que comprende usar los

resul tados

de la etapa iv) para llevar a cabo una

clasificación basándose

o bien de pixel a pixel o de región

a

región con una reproyección en e l espacio de segmentación

35

con el f in de mejorar la precisión de l os limites de dicho

primer plano .

2l.

Método según cualquiera de las reivindicaciones

anteriores, en el que dicha información de profundidad es

información de profundidad procesada obtenida adquiriendo

5

i nformación de profundidad preliminar con una cámara de

tiempo de vuelo, ToF, y procesándola para

desdistorsionarla, rectificarla y ajustarla a escala de

manera ascendente para adecuarla con contenido de color,

con respecto a dicha imagen , capturada con una cámara a

10

color.
22 .

Método según cualquiera de las reivindicaciones 1 a 20 ,

que comprende adquirir tanto contenido de color, con

respecto a dicha imagen, como dicha información de

profundidad con una única cámara que puede adquirir y

15

suministrar información de color y profundidad.
23.

Sistema para segmentación de primer plano de imágenes en

tiempo real , que comprende medios de cámara previstos para

adquirir imágenes a partir de una escena , incluyendo

información de color, medios de procesamiento conectados a

20

dicha cámara para recibir imágenes adquiridas por la misma

y para procesarlas con el fin de llevar a cabo una

segmentación de primer plano de imágenes en tiempo real ,

caracterizado porque dichos medios de cámara están

previstos también para adquirir, a partir de dicha escena,

25

información de profundidad, y porque dichos medios de

procesamiento están previstos para llevar a cabo dicha

segmentación de primer plano mediante elementos de hardware

y/o software que implementan al menos dicha aplicación de

dichas funciones de coste del método según cualquiera de

30

las reivindicaciones 1 a 22.
24 .

Sistema según la reivindicación 23 , en el que dichos

elementos de hardware y/o software implementan dichas

etapas i) a iv) del método según cualquiera de las

reivindicaciones 11 a 22 .

35 25. Sistema según la reivindicación 23 ó 24 , en el que dichos

medios

de cámara comprenden una cámara a color para

adquirir dichas

imágenes incluyendo información de color, y

una

cámara de t i empo de vuelo, ToF, para adquirir dicha

información de profundidad .

5

26 . Sistema según la reivindicación 23 6 24 , en el que dichos

medios

de cámara comprenden una única cámara que puede

adquirir

y suministrar información de color y profundidad.
27 .

Sistema según la reivindicación 23 , que comprende una

pantalla

conectada a la salida de dichos medios de

10

procesamiento, estando estos últimos previstos también para

generar

imágenes tridimensionales reales y/o virtuales , a

partir de

siluetas generadas a partir de dicha segmentación

de

primer plano de imágenes , y visualizarlas a través

de

dicha pantalla .

15

28 . Sistema según la reivindicación 27 , caracterizado porque

constituye

o forma parte de un sistema de telepresencia .