BRPI0613102A2

BRPI0613102A2 - recortar e colar objeto de vìdeo

Info

Publication number: BRPI0613102A2
Application number: BRPI0613102-6A
Authority: BR
Inventors: Jian Sun; Heung-Yeung Shum; Yin Li
Original assignee: Microsoft Corp
Priority date: 2005-07-01
Filing date: 2006-06-29
Publication date: 2010-12-21
Also published as: EP1899897A4; WO2007005839A2; KR20080040639A; WO2007005839A3; US20070003154A1; CN101501776B; JP2009500752A; US7609888B2; EP1899897A2; JP4954206B2; CA2613116A1; EP1899897B1; CN101501776A; AU2006265633A1

Abstract

RECORTAR E COLAR OBJETO DE VìDEO. O recorte e a colagem (100) de objetos de vídeo são descritos. Em uma implementação, a pré-segmentação (202) de quadros de vídeo (108) em regiões (313) é executada antes de uma segmentação (204) de recorte de gráfico 3-D. A segmentação de recorte de gráfico 3-D (204) usa coerência temporal (326) e um modelo de cor global (320) para alcançar a acurácia dos limites de objeto de vídeo (504) . Uma segmentação de recorte de gráfico local 2-D (206) pode então ser usada para refinar (508) os limites. Os limites podem ser rastreados dentro de uma seqüência selecionada por usuário de janelas (502) e refinados usando um modelo de cor local (336).

Description

"RECORTAR E COLAR OBJETO DE VÍDEO"

Fundamentos da Invenção

O recorte e a colagem de objetos em movimento parae a partir de seqüências de video têm muitas aplicações nocampo do processamento de vídeo. A segmentação digital deobjetos, que permite recorte e colagem, tem se tornado, deforma crescente, uma área de pesquisa em processamento devídeo.

Convencionalmente, recortar e colar objetos de ví-deo tem sido executado por cromaqui, o qual é também denomi-nado como mascaramento de tela azul ou "ecrã azul". No cro-maqui, objetos de primeiro plano são vídeo gravado em frentea um plano de fundo de cor sólida, geralmente azul ou verde,e são então separados do plano de fundo usando técnicas demascaramento que levam vantagem em relação a cor de plano defundo conhecida. A simplicidade destas técnicas permite aseparação rápida do primeiro plano. Alguns sistemas aindacomputam o cromaqui em tempo real. Entretanto, estes métodossão limitados a simples planos de fundo de uma cor sólida.

Erros freqüentemente ocorrem quando objetos de primeiro pla-no contêm cores similares às do plano de fundo.

Algumas aproximações convencionais para corte deobjetos de vídeo envolvem rastreamento da silhueta. Emboraestes métodos existentes possam ser aplicados a planos defundo em geral, para resultar em maior robustez no processode rastreamento, eles usam curvas suavizadas que imprecisa egrosseiramente representam os limites do objeto. Visto queum descritor de limite grosseiro não pode capturar os deta-lhes menores de uma silhueta, estas técnicas são inadequadaspara a maioria das aplicações de recorte e colagem. Estastécnicas de limites grosseiros podem ser refinadas interati-vamente pelo automanipulação, que fornece uma interface deusuário para ajuste de limites detalhados através da ediçãodas curvas. Entretanto, desde que cada quadro de video devaser individualmente modificado pelo usuário, o trabalho ma-nual necessário para delinear apropriadamente os detalhesdos limites é proibitivo.

Recentemente, técnicas convencionais de mascara-mento de video têm relaxado a exigência de plano de fundo decor sólida para permitir mudanças suaves de cor ao invés deuma única cor sólida de plano de fundo. 0 sucesso do masca-ramento de video em tais cenários depende de várias técni-cas, tais como tri-mapas acurados que podem ser propagados equão bem o mascaramento Bayesiano executado em cada quadroindividual.

O mascaramento de video quando o plano de fundo écomplexo, tem duas dificuldades principais para seqüênciasde video gerais. Primeiramente, muitos videos contêm movi-mentos rápidos, transformação de silhuetas, e topologiasfreqüentemente em mudança, que são muito estimuladas paraalgoritmos mais modernos de fluxo óptico propagarem de formabidirecional tri-mapas. Segundo, mesmo se tri-mapas precisospodem ser obtidos com considerável interação do usuário, atécnica de mascaramento Bayesiana freqüentemente produz re-sultados insatisfatórios quando o primeiro plano/plano defundo contém texturas complexas ou as cores do primeiro pia-no são similares às cores do plano de fundo. Em outras pala-vras, quando o plano de fundo é mais complexo do que sim-plesmente uma simples cor sólida, então automaticamente de-terminar onde as bordas visuais de um objeto de video estãoà medida que o objeto de video muda e se move durante a re-produção do video é uma tarefa sofisticada e de processamen-to intensivo.

Sumário da Invenção

Este sumário é fornecido para introduzir uma sele-ção de conceitos em uma forma simplificada que são adicio-nalmente descritos abaixo em uma Descrição Detalhada. Estesumário não pretende identificar característica chave ou ca-racterísticas essenciais da questão reivindicada, nem pre-tende ser usado como um auxílio em determinar o escopo daquestão reivindicada.

Em vista do que foi dito acima, o recorte e a co-lagem do objeto de vídeo são descritos. Em uma implementa-ção, antes de uma segmentação de recorte de gráfico 3-D,quadros de vídeo são pré-segmentados em regiões. A segmenta-ção de recorte de gráfico 3-D usa coerência temporal e ummodelo de cor global para alcançar a acurácia dos limites doobjeto de vídeo. Uma segmentação de recorte de gráfico 2-Dpode então ser usada para refinar os limites. Os limites po-dem ser rastreados em uma seqüência selecionada por usuáriode janelas e refinados usando um modelo de cor local.

Breve Descrição dos Desenhos

A FIG. 1 é um diagrama de um sistema exemplificadode recorte e colagem de vídeo.A FIG. 2 é um diagrama de uma visão geral de umprocesso exemplificado de recorte e colagem de video.

A FIG. 3 é um diagrama de bloco de um mecanismoexemplificado de recorte e colagem de video.

A FIG. 4 é um diagrama de construção gráfica 3-Dexemplificada.

A FIG. 5 é um diagrama de uma técnica exemplifica-da para refinar limites de um objeto de video.

A FIG. 6 é um diagrama de resultados exemplifica-dos da segmentação 2-D e 3-D.

A FIG. 7 é um diagrama de fluxo de um método exem-plificado de segmentar um objeto de video a partir de umaseqüência de video.

Descrição Detalhada da Invenção

Visão Geral

Sistemas e métodos são descritos para automatica-mente separar (isto é, "recortar") um objeto visual se mo-vendo e mudando do plano de fundo algumas vezes complicadode uma seqüência de video em movimento (video clipe), talque ele possa ser colado, por exemplo, em um plano de fundoem movimento diferente. De forma importante, os sistemas emétodos podem preservar os detalhes menores das bordas ex-ternas do objeto de video que está sendo recortado.

Os sistemas e métodos podem capturar deformaçõesde formas complexas com a entrada do usuário de somente pou-cas máscaras de quadro chave, usando uma segmentação de re-corte de gráfico tridimensional (3-D) que tem melhorado ascaracterísticas das técnicas convencionais. Além disso, u-sando modelos de cor local, os limites de objeto de vídeosão localizados corretamente mesmo quando as cores são ambí-guas ou o contraste entre o primeiro plano designado e oplano de fundo é baixo. Uma técnica de rastreio de caracte-rística bidirecional é designada para rastrear precisamenteregiões visuais usando modelos de cor local. Uma seqüênciade objeto de vídeo recortada resultante está pronta para sercomposta em outros planos de fundo.

Sistema Exemplificado

A FIG. 1 mostra um sistema exemplificado 100, noqual um mecanismo de recorte e colagem de vídeo 102 resideem um dispositivo de computação 104. 0 mecanismo de recortee colagem de vídeo 102 pode recortar um objeto de vídeo tem-porariamente seqüenciado 106 (neste caso, dançarinos se mo-vendo) de um vídeo clipe 108, tal que o objeto de vídeo 106possa ser colado em um plano de fundo em movimento diferen-te. 0 sistema 100 executa tal "recorte de gráfico" diferen-ciando-se (isto é, "segmentando-se") o objeto de vídeo 106para ser recortado da "máscara" de plano de fundo vizinha110 de uma maneira que seja mais rápida, mais fácil de usar,e mais eficiente do que as técnicas convencionais.

A operação de recorte de gráfico 3-D recorta o ob-jeto de vídeo 106 de uma seqüência temporal de superfíciesbidimensionais (2-D) (quadros de vídeo) que representam umintervalo de tempo - vídeo clipe 108 - durante o qual o ob-jeto de vídeo 106 se move e pode mudar seu rodapé no quadrode um quadro 2-D para o próximo. O recorte de gráfico 3-D édiferente do recorte de gráfico 2-D, no qual um objeto visu-al é separado de uma única superfície 2-D como recortar oobjeto de um pedaço de papel. As "três dimensões" do recortede gráfico 3-D referem-se a duas dimensões espaciais (de umquadro de vídeo) movendo-se através de uma terceira dimensãotemporal (isto é, sendo reproduzidas), ao invés das três di-mensões espaciais de comprimento, largura e profundidade. Astécnicas exemplificadas descritas aqui não necessitam serlimitadas a um recorte de gráfico 3-D, entretanto, aspectospoderiam também ser aplicados a um recorte de gráfico de 4dimensões, no qual, por exemplo, um objeto holográfico é re-cortado de suas vizinhanças no espaço e inserido em um espa-ço diferente com diferentes vizinhanças.

Os sistemas e métodos descritos aqui têm a vanta-gem de gerar uma segmentação binária acurada antes de apli-car mascaramento coerente. Isto é, um mascaramento coerentemodificado usa a segmentação binária como um antecedente pa-ra produzir a máscara alfa do objeto de vídeo 106 que estásendo recortado. O mascaramento coerente pode gerar melhoresresultados que o mascaramento Bayesiano convencional, porexemplo, porque ele explora completamente a informação nasegmentação binária com um termo de regularização para amáscara alfa. Além disso, fornecendo uma segmentação de ví-deo binário, um sistema exemplificado obtém resultados maisacurados e utiliza uma interface de usuário mais fácil deusar (UI) para refinamento de limites do que as técnicasconvencionais de rastreamento de contorno e propagação detrimap.

Uma implementação da questão adicionalmente usa ummétodo de segmentação de imagem 2-D pelo qual limites acura-dos de objetos podem ser facilmente obtidos usando uma sim-ples interação do usuário combinada com um algoritmo de re-corte de gráfico.

Os métodos e sistemas descritos aqui estendem orecorte de gráfico 3-D convencional em nivel de pixel paraum recorte de gráfico 3-D baseado em região de modo a mani-pular objetos de video 106 ao invés de somente pixels. Méto-dos de refinamento local exemplificados usam uma caracterís-tica de rastreamento também.

A FIG. 2 mostra uma visão geral 200 de uma imple-mentação do processo de recorte de gráfico exemplificadoimplementado pelo mecanismo de recorte e colagem de video102. Na visão geral 200, uma pré-segmentação 202 ocorre an-tes do recorte de gráfico 3-D 204. Uma partição de "divisãode águas" (isto é, usando um "algoritmo de linhas de parti-ção de águas") é executada na seqüência de video de entrada.Isto acelera muito a segmentação, isto é, as operações derecorte e colagem de video são muito aceleradas executando-se essa segmentação de divisor de águas, antes que o recortede gráfico 3-D ocorra. Essa partição de divisor de águasconsiste de uma pré-segmentação binária bruta em regiõesgráficas usando uma avaliação da energia.

A seguir, o recorte de gráfico 3-D 204 usa um pe-queno número de quadros de vídeos modelo selecionados a par-tir do vídeo clipe como um ponto de início para o processode segmentação. Esses quadros de vídeo modelo podem ser se-lecionados por sua eficácia em mostrar contraste entre o ob-jeto de vídeo 106 e o plano de fundo. O processo de recortede gráfico exemplificado então forma automaticamente cone-xões inter-quadros através de regiões de imagem "candidatas"correspondentes em quadros de vídeo adjacentes para preser-var segmentação de objeto acurada à medida que o objeto semove e muda através do tempo através de quadros de vídeo.

Um usuário pode adicionalmente refinar os limitesdo objeto de vídeo gerados automaticamente com um recorte degráfico 2-D local 206 usando um modelo de cor local. 0 ras-treamento da característica bidirecional entre quadros chavepode também ser fornecido, o que permite que o usuário façacorreções locais ao limite de objeto de vídeo gerado automa-ticamente.

Ferramentas manuais para o refinamento de limite208 são também fornecidas, as quais ignoram a segregação au-tomática de modo a especificar ou corrigir os detalhes meno-res em um limite de objeto.

Um processo de mascaramento coerente modificadoexemplificado 210 gera automaticamente uma seqüência de más-caras para os quadros do vídeo clipe 108. O processo de mas-caramento coerente modificado exemplificado 210 extrai o ob-jeto de vídeo especificado 106 do vídeo clipe 108 usando aseqüência de máscaras e extrai as cores de primeiro plano doobjeto de vídeo.

Outras características incluem salvar mapa, peloqual um usuário pode salvar a interação do usuário e umaconfiguração de recorte e colagem para arquivar, para depoisusar e modificar; e colagem de objeto, pelo qual o usuáriopode colocar o objeto segmentado em um novo plano de fundo.

Mecanismo Exemplificado

A FIG. 3 mostra o mecanismo de recorte e colagemde video 102 da FIG. 1 em maiores detalhes. O mecanismo derecorte e colagem de video 102 ilustrado na FIG. 3 é desti-nado a fornecer um arranjo exemplificado para a finalidadede visão geral. Muitos outros arranjos dos componentes ilus-trados, ou componentes similares, são possíveis. Tal meca-nismo de recorte e colagem de vídeo 102 pode ser executadoem um hardware, em um software, em combinações de hardware,software, suporte lógico inalterável, etc.

O mecanismo exemplificado 102 inclui um segmenta-dor binário 302 que visa encontrar o limite entre um objetode vídeo 106 e seu plano de fundo. Isto é, o segmentador bi-nário 302 visa determinar para cada pixel, se o pixel estáno primeiro plano (o objeto de vídeo 106 que está sendo re-cortado) ou no plano de fundo (parte da máscara). Idealmen-te, um recorte perfeito ou uma "segmentação" seria entre umpixel no objeto de vídeo 106 e o próximo pixel adjacente fo-ra do objeto de vídeo 106. Entretanto, o mecanismo exempli-ficado 102 ganha velocidade e precisão sobre técnicas con-vencionais considerando-se regiões dos quadros de vídeo mu-dando temporariamente de um volume de vídeo 3-D ao invés depixels individuais.

O segmentador binário 302 inclui um mecanismo desegmentação de recorte de gráfico 3-D 304, para executar oprocessamento bruto de procura do limite de objeto de vídeo;e um refinador de limite local 2-D 306 para refinar os re-sultados obtidos pelo mecanismo de segmentação de recorte degráfico 3-D 304. Ambos destes componentes interagem com umainterface de usuário 308.

O mecanismo de segmentação de recorte de gráfico3-D 304 adicionalmente inclui um mecanismo de pré-segmentação de quadros 310 e um mecanismo de gráfico 3-D312. O mecanismo de pré-segmentação de quadros 310 adicio-nalmente inclui um armazenador temporário de volume 3-D 314,um particionador de divisão de águas 316, e uma área de ar-mazenamento para as regiões 318 determinadas pelo particio-nador de divisão de águas 316. O mecanismo de gráfico 3-D312 adicionalmente inclui um avaliador de energia de corglobal 320, um conector intraquadros 324, e um conector in-terquadros 326. O avaliador de energia de cor global 320 po-de adicionalmente incluir um comparador de cor 322.

O refinador de limite local 2-D 306 pode incluirum recortador de gráfico 2-D local 328 e um anulador de seg-mentação 330. O recortador de gráfico 2-D local 328 adicio-nalmente inclui um rastreador de característica bidirecional332, um mecanismo de tubo de vídeo 334, e um modelador decor local 336. O mecanismo de tubo de vídeo inclui um espe-cificador de janela 338. O anulador de segmentação 330 nor-malmente inclui ferramentas de usuário 340, por exemplo,ferramentas de pincel de interface de usuário, para designaráreas de primeiro plano e de plano de fundo de um quadro devídeo. A interface de usuário 308 pode incluir uma tela devídeo 342, controles de tela 344, um inseridor de quadrochave 346, e um seletor de objeto 348.Um salvador de mapa 350 pode persistir em uma seg-mentação binária obtida pelo segmentador binário 302. Essapode incluir modificações de limite que o usuário executoucom algum grau de intervenção manual com o recortador degráfico 2-D local 328 e as ferramentas de usuário 340, etc.

Usando os resultados de segmentação binária a par-tir do segmentador binário 302, o extrator de máscara 352pode aplicar um algoritmo de mascaramento coerentemente mo-dificado 354 de modo a obter as máscaras alfa de cada quadrono video clipe 108, ou seja, uma "seqüência de máscaras"356. Um extrator de cor de primeiro plano 358 extrai o obje-to de video 3-D 106 como uma seqüência de objeto 360. Um co-lador de objeto 362 pode localizar a seqüência de objeto 360em um dos múltiplos novos planos de fundo 364.

Em uma implementação, a operação do mecanismo derecorte e colagem de video exemplificado 102 pode ser resu-mida como segue. As regiões de pré-segmentação 318 de qua-dros de video são determinadas pelo particionador de divisãode águas 316. 0 mecanismo de segmentação de recorte de grá-fico 3-D 304 então aplica segmentação às regiões de pré-segmentação do volume de video espaço-temporal, que pode sermantida em um armazenador temporário 314. 0 mecanismo degráfico 3-D 312 conecta as regiões de pré-segmentação 318 deuma maneira que preserva a coerência temporal de um objetode video 106. O refinador de limite local 2-D 306 pode obtereste resultado de segmentação inicial e permite que o usuá-rio especifique regiões 318 para o refinamento local no qualo recortador de gráfico 2-D local 328 tem um modelador decor local 336 que utiliza cores locais ao invés de cores doplano de fundo inteiro.

Uma descrição mais detalhada do mecanismo de re-corte e colagem de objeto de video 102 segue agora. Em umcenário tipico, o usuário seleciona primeiro uns poucos qua-dros chave a partir do video clipe 108 usando o inseridor dequadro chave 346 e fornece sua segmentação de primeiro pla-no/plano de fundo precisa usando o seletor de objeto 348,que pode incluir uma ferramenta de pegar imagem convencio-nal. Em uma implementação, o mecanismo 102 questiona por umaamostra de quadro chave em intervalos de dez quadros e gerammáscaras de plano de fundo dos quadros entre eles, porém ataxa de amostragem pode variar de acordo com o movimento doobjeto no video clipe particular 108. Para diminuir o movi-mento ou deformar os objetos, uma taxa de amostragem maisbaixa pode ser usada.

O mecanismo de segmentação de recorte de gráfico3-D 304 atua no volume temporal espacial do video clipe 108,que pode ser armazenado no armazenador temporário de volume3-D 314. Para tornar o processo de otimização tratável, omecanismo de pré-segmentação de quadro 310 pré-segmenta cadaquadro no video clipe 108 em um número de regiões atômicas318 usando uma técnica de divisão de águas, tal como um al-goritmo de divisor de águas Soille e Vincent. O mecanismo degráfico 3-D 312 constrói um gráfico 3-D baseado nessas regi-ões atômicas 318. Uma técnica de pré-segmentação alternativapode ser usada, tal como o deslizamento ("tobogganing") deBarrett e Mortensen. Em qualquer caso, o mecanismo de seg-mentação de recorte de gráfico 3-D forma conexões temporaisque preservam um conjunto de regiões candidatas de quadro aquadro e, portanto, embute consistência temporal sem estima-tiva explicita de movimento.

A FIG. 4 mostra sobre um visão geral da construçãoexemplificada de um gráfico 3-D 400 a partir do qual o obje-to de video 3-D 106 pode ser segmentado e recortado. Em umaimplementação, para uma região r 318, o mecanismo de gráfico3-D 312 constrói o gráfico 3-D 400 usando três quantidadesde energia. Primeiro, o mecanismo de gráfico 3-D 312 conectaa região 318 aos nós virtuais de primeiro plano (por exem-plo, 404) e nós virtuais de plano de fundo (por exemplo,406) de acordo com um termo de energia Ei. Segundo, o conec-tor intraquadros 324 conecta a região 318 à regiões vizinhas(por exemplo, 408, 410, 412, 414) em um único quadro (t) deacordo com o termo de energia E2. Então, o conector intra-quadros 326 conecta a região 318 às regiões candidatas emquadros adjacentes com um termo de energia E3 (por exemplo,regiões candidatas 414, 416, e 418 em quadros anteriores t -1; e regiões candidatas 422, 424, 426, 428, e 430 no quadroa seguir t + 1). Uma região candidata, então, representa umaregião em um quadro adjacente que pode se tornar uma regiãoatual 402 em um ponto diferente no tempo (isto é, em um qua-dro de video adjacente).

Retornando aos componentes do mecanismo da FIG. 3,o mecanismo de gráfico 3-D 312 constrói o gráfico 3-D 400entre cada par de quadros chave selecionados, construindo asregiões atômicas 318 obtidas pelo mecanismo de pré-segmentação de quadro 310, ao invés de pixels individuaiscomo em técnicas convencionais. O mecanismo de gráfico 3-D312 executa a segmentação usando um comparador de cor 322para comparar a consistência da cor de cada região 318 com adistribuição de cores do primeiro plano/plano de fundo emquadros chave, e então maximizando as diferenças de cor en-tre regiões através do limite do primeiro plano/plano defundo do objeto de video 106. Em adição, o mecanismo de grá-fico 3-D tira vantagem da coerência temporal embutida nográfico 3-D pela otimização usando as três energias. Na prá-tica, a maior parte da silhueta do objeto de video pode serprecisamente localizada pelo mecanismo de segmentação de re-corte de gráfico 3-D 304.

Ainda mais detalhadamente, o mecanismo de gráfico3-D 312 indica um único rótulo χ , {1(primeiro plano),0 (plano de fundo)} para cada região 318. A regiões 318 nosquadros chave já tem rótulos, por exemplo, do seletor do ob-jeto 348, enquanto o mecanismo de gráfico 3-D 312 indica ró-tulos para regiões de outros quadros.

O mecanismo de gráfico 3-D 312 constrói um volume3-D Γ= limitado por dois quadros chave sucessivos doinseridor de quadro chave 346. O conjunto de nós ς contémregiões atômicas (por exemplo, 318) geradas pelo particiona-dor de divisão de águas 316. O conjunto de arcos A contémdois tipos de arcos: arcos intra-quadros A1 conectando, nósdentro de um quadro, e arcos inter-quadros Ar conectando nósatravés de quadros adjacentes.

Para construir arcos intra-quadros A1 , o conectorintra-quadros 324 conecta cada região rt 318 a cada uma dasregiões adjacentes (por exemplo, 402, 404, 406, e 408) nomesmo quadro: (It) · Para construir os arcos inter-quadrosAr, o conector inter-quadros 326 conecta cada região rt318 acada região candidata (por exemplo, 422, 424, 426, 428, 430)no quadro adjacente (It±i) que repousa em um dado raio (tipi-camente 15 pixels), excluindo regiões obviamente não rela-cionadas cuja cor média difere daquela da região rt 318 pormais do que um limite Tc (tipicamente 30 pixels). Para mani-pular regiões com várias formas, tal como uma forma em "L"ou regiões estreitas e longas, a adjacência entre regiões écomputada por dilatação morfológica ao invés da distânciaEuclidiana entre centros de região. O mecanismo de gráfico3-D 312 mantém um conjunto dessas conexões candidatas parapossíveis correspondências em quadros adjacentes, e a otimi-zação fornecida pelo comparador de cor 322 decide qual deve-ria ser recortado. Mantendo as conexões candidatas entrepossíveis regiões correspondentes através de quadros leva amaior robustez do que os métodos de rastreamento tradicio-nais que determinam somente uma correspondência.

O gerador de gráfico 3-D 312 rotula regiões cor-respondentes tendo o comparador de cor 322 que minimiza umafunção de energia definida no gráfico 3-D Γ como na equação(1) :

<formula>formula see original document page 16</formula>onde xr é o rótulo primeiro plano/plano de fundoda região r 318, e X= {*,.·'%}· 0 primeiro termo é a "energiade probabilidade" Ell que representa a conformidade da corda região r 318 com o modelo de cor de primeiro plano/planode fundo construído a partir da informação de cor nos qua-dros chave. 0 segundo e o terceiro termo são as "energiasanteriores" E2 e E3. E2 representa diferenças de cor entreduas regiões adjacentes no mesmo quadro, e é usada pelo co-nector intraquadros 324 para encorajar duas regiões adjacen-tes similares a ficarem juntas no primeiro plano ou no planode fundo. O terceiro termo E3 representa diferenças de corentre duas regiões adjacentes em dois quadros adjacentes, eé usado pelo conector inter-quadros 326 para embutir coerên-cia temporal no processo de otimização de recorte de gráficoatravés de arcos inter-quadros Ar . O conector interquadros326 forma conexões temporais entre quadros, isto é, conec-tando uma única região em um quadro para multiplicar regiõescandidatas em quadros posteriores, com várias conexões man-tidas em uma otimização final.

O avaliador de energia de cor global 320 amostracores em quadros chave para construir modelos de cor de pri-meiro plano/plano de fundo para E1. Em uma implementação, oavaliador de energia de cor global 320 usa modelos de mistu-ra Gaussianos (GMMs) para descrever as distribuições de corde primeiro plano/plano de fundo. 0 m- componente dos GMMsde primeiro plano é indicado como (™1·μ{,Λ{η), representandoo peso, a cor média e a matriz covariância. O avaliador deenergia de cor global 320 usa M componentes para descreveras cores do primeiro plano e do plano de fundo, portantoml [1,M]. Normalmente M = 6.

Para uma dada cor c, sua distância aos GMMs deprimeiro plano é definida como na equação (2):

df(c)= ηΤ{%ί0(Μ/"ιΛ f"")+ >»)J' (2)

onde, como mostrado na equação (3):

D(w,â )= - Iogw+ ^logdeta , (3)

e onde, como mostrado na equação (4):

ãfc.M )=\(c- μ/â" Yc- μ/ (4)

Para uma região r 318, sua distância GMMs de pri-meiro plano é definida como o valor esperado da distância detodos os pixels dentro da região, indicado como (df^j . Adistância à cor do plano de fundo é definida similar-mente. Então, e energia de probabilidade E1 (xr) é definidacomo na Tabela (1).

Tabela (1): Energias de Probabilidade

<table>table see original document page 18</column></row><table>

{F} e {B} são conjuntos de regiões de primeiroplano e de regiões de plano de fundo, respectivamente, emquadros chave, cujos rótulos são inseridos. Determinações de0e°° para E1 reforçam estas rígidas restrições na otimização.As duas energias E2 e E3 são definidas com relaçãoà similaridade de cor entre duas regiões r e s como na equação (5) :

<formula>formula see original document page 19</formula>

onde ||cr- cj é a norma L2 da diferença de cor RGB.

O parâmetro robusto β pesa o contraste de cor, epode ser definido como P=f2^||cr- cj2^/1 onde (.) é o operadorde expectativa. 0 avaliador de energia de cor global 320computa β separadamente para E2 e E3. O fator \xr- x5| permiteque a energia seja considerada somente para conexões atravésdo limite de segmentação. As energias anteriores E2 e E3 sãotermos de penalidade quando nós adjacentes são determinadoscom diferentes rótulos.

O mecanismo de gráfico 3-D 312 minimiza globalmen-te a função objetiva da Equação (1) usando um algoritmo derecorte de gráfico eficiente, e os rótulos resultantes paracada região determinam uma segmentação no volume de video.

Na construção do gráfico 3-D, o custo de margem doarco para o nó do primeiro plano (ou plano de fundo) virtualno gráfico é E1(O) (E1(I))r e o custo de margem do arco in-tra-quadros ou inter-quadros é e p"er"Cí" . Os arcos entre osnós cr - Cs que têm cores similares deveriam ter alto custo.

Em uma implementação, o avaliador de energia decor global 320 fixa parâmetros padrão para λ, = 24 , λ2 = 12 .

Com esses valores, o mecanismo de segmentação de recorte degráfico 3-D 304 pode computar o limite de um objeto de video106 com êxito em uma velocidade razoável.

Desde que o avaliador de energia de cor global 320construa distribuições de cor primeiro plano/plano de fundoglobalmente a partir de quadros chave, o resultado da seg-mentação de recorte de gráfico 3-D pode ser pobre em áreasonde a cor do primeiro plano combina com a cor do plano defundo de uma parte diferente do vídeo clipe 108 (e vice-versa). Assim, o refinador de limite local 2-D 306 inclui ummecanismo de tubo de vídeo 334 que permite ao usuário apli-car o refinamento de limite muito localizado. Um "tubo devídeo" é uma pequena área do rodapé do quadro de vídeo atra-vés do tempo (uma pequena parte do vídeo em movimento exibi-do) na qual somente modelos de cor locais são usados na seg-mentação de recorte de gráfico. Isolando cores locais, o li-mite de segmentação pode ser melhorado significativamente. Omecanismo de tubo de vídeo 334 inclui um especificador dejanela 338, que permite que o usuário especifique a área doquadro de vídeo na qual o refinamento do limite localizadoacontecerá. Em uma implementação, o usuário desenha um re-tângulo (uma janela) que se propaga através de quadros e quelimita a segmentação dentro de seus próprios limites. Dese-nhar um retângulo via o especificador de janela 338 pode serexecutado via a interface de usuário 308 e os controles detela 344.

Em uma implementação, o especificador de janela338 do mecanismo de tubo de vídeo 334 define um tubo de ví-deo como janelas retangulares (W1)^1, isto é, uma sub-partede um quadro de vídeo através de T quadros. Para especificarum tubo de vídeo, o usuário somente necessita selecionar du-as janelas chave W1 e WTi que são a primeira e a última jane-Ia do tubo de video que está sendo selecionado. As janelasrestantes entre essas são automaticamente localizadas pelorastreador de característica bidirecional 332.

Em uma implementação, o mecanismo de tubo de vídeo334 determina que existe no mínimo um quadro chave entre W1e WT, tal que o modelador de cor local 336 possa obter mode-los de cor de primeiro plano/plano de fundo locais para re-finamento. Também, o mecanismo de tubo de vídeo 334 determi-na que o limite do tubo está correto nas bordas de segmenta-ção (entre o primeiro plano e o plano de fundo na borda doobjeto de vídeo 106), desde que os pontos de inserção forne-cem rígidas restrições na otimização.

Depois que o refinador de limite local 2-D 306 e-xecuta o rastreio, o recortador de gráfico 2-D local 328 a-plica uma segmentação de recorte de gráfico 2-D em nível depixel para cada janela de tubo de vídeo usando modelos decor locais de primeiro plano e de plano de fundo construídosa partir das janelas de tubo de vídeo correspondentes noquadro(s) chave. Finalmente, o refinador de limite local 2-D306 conecta de forma inconsútil esse resultado de segmenta-ção refinada a partir de cada tubo de vídeo ao limite de ob-jeto de vídeo existente adjacente à janela de tubo de vídeo.

A FIG. 5 mostra o refinamento de limite 2-D exem-plificado - usando tubos de vídeo - já descrito. A janela dotubo de vídeo 502 é localizada pelo usuário em um limite 504de um resultado de segmentação existente 506. O recortadorde gráfico 2-D local 328 executa a segmentação usando coreslocais encontradas pelo modelador de cor local 336. Nesterefinamento de limite, os pixels mais externos da borda dajanela 502 são rotulados como restrições rígidas do primeiroplano/plano de fundo de acordo com o resultado da segmenta-ção existente, tal que o que for determinado para os pixelsinteriores da janela 502 conectará de forma inconsútil com oresultado da segmentação existente 506 da segmentação de re-corte de gráfico 3-D. No início da seleção de janela, o es-tado do primeiro plano/plano de fundo de cada pixel interiorda janela 502 é incerto e a ser determinado por relação comum limite mais refinado 508. Este resultado da segmentaçãode recorte de gráfico 2-D, o limite refinado 508 (mostradocomo uma linha tracejada), é usado para substituir o limitede segmentação anterior 504. Os dois pontos de interseção510 e 512, onde a janela do tubo de vídeo 502 interceptou olimite de segmentação anterior 504, permanecem em suas mes-mas localizações, porém o resto do limite refinado 508 podeser diferente do limite anterior 504.

Rastreio De Característica Bidirecional

O rastreador de característica bidirecional 332será agora descrito mais detalhadamente. Dada as duas jane-las chave W1 E WT, a primeira janela e a última janela de umtubo de vídeo, o rastreador de característica bidirecional332 rastreia a posição da janela nos quadros intermediários.Os tamanhos de W1 E Wt podem ser diferentes e ajustados pelousuário. Antes de rastrear, as janelas entre eles são line-armente interpoladas (ambos posição e tamanho) a partir deWI E Wt.

O mecanismo do tubo de vídeo 334 indica pt como aposição central de cada janela Wt no tubo de vídeo. 0 meca-nismo de tubo de vídeo 334 também define uma faixa de pes-quisa St para a posição de cada janela. Todos as posições{pt}J=2 c^as janelas podem ser solucionadas minimizando-se afunção objetiva seguinte mostrada na Equação (6):

<formula>formula see original document page 23</formula>

onde D(ptX,pa) é a soma das distâncias das coreselevadas ao quadrado entre as duas janelas Wti e Wt2 em suasregiões sobrepostas quando seus centros pn e pa são alinha-dos. Os termos pt_, e pt são as posições das janelas Wt-χ e Wtantes da otimização, que são calculados por interpolação li-near. Em uma implementação, η,= 0.1 e η2 = 1.

0 primeiro termo na equação (6) é designado paraotimizar a consistência da cor da janela com relação às ja-nelas chave. 0 mecanismo do tubo de vídeo 334 seleciona ajanela chave que melhor combina para calcular esse custo,para permitir que a característica mude pelo tempo. 0 segun-do termo reforça a suavização do tubo de vídeo. 0 terceirotermo é para minimizar as diferenças de cor entre janelasadjacentes. Note que as posições das janelas chave são fixasnesse processo de otimização, desde que elas tenham sido lo-calizadas pelo usuário. O rastreio é referido como "bidire-cional" devido a cada janela receber informação a partir deduas janelas chave em duas direções.

Em uma implementação, a função objetiva da Equação(6) pode ser otimizada usando um algoritmo de programaçãodinâmica (DP) . O rastreador de característica bidirecional332 pode usar um método de múltipla escala para a otimiza-ção. Primeiro, o rastreador de característica bidirecional332 constrói uma pirâmide Gaussiana para cada quadro no ví-deo clipe 108, e cada nível mais alto tem metade do tamanhode quadro de seu nível intermediário mais baixo. O rastrea-dor de característica bidirecional 332 escalona a posição etamanho da janela conseqüentemente. Então ele executa a oti-mização de cada nível iniciando a partir do topo da pirâmi-de, dentro da faixa de pesquisa St centrada na localizaçãootimizada no nível anterior. Para o nível superior, o ras-treador de característica bidirecional 332 interpola linear-mente a posição inicial de Wt a partir das janelas chave.Tipicamente, para um vídeo NTSC (720 χ 480 pixels) existem L= 4 níveis e St é uma janela quadrada 7 χ 7 em cada nível.

Uma vez que um tubo de vídeo é localizado, o refi-nador de limite local 2-D 306 executa uma segmentação de re-corte de gráfico 2-D dentro de cada janela para refinar li-mites de segmentação existentes. O gráfico 2-D é construídono nível de pixel, como mostrado na equação (7):

<formula>formula see original document page 24</formula>

onde Xi é a rotina do pixel i, ς' são todos os pi-xels que estão sendo rastreados, e Af é a relação de oitovizinhos entre pixels. E1 e E2 têm definições similares comona Equação (1) exceto que as regiões são agora substituídaspor pixels. Em uma implementação, o valor de λ', é tipicamen-te ajustado para 10.

De modo a embutir de forma inconsútil o refinamen-to na segmentação existente, o recortador de gráfico 2-D lo-cal 328 automaticamente gera uma rígida restrição de primei-ro plano e de plano de fundo de acordo com o resultado dasegmentação existente. Como mostrado na FIG. 5, os rótulosde todos os pixels dentro da janela são solucionados pelorecortador de gráfico 2-D local, exceto para os pixels nolimite da janela. Esses pixels são marcados como rígidasrestrições de primeiro plano se no primeiro plano da segmen-tação existente. De outra forma, eles são marcados como res-trições rígidas do plano de fundo. Devido a estas restriçõesrígidas, o recortador de gráfico 2-D local 328 produz um re-sultado dentro da janela que é conectado de forma inconsútilaos limites existentes logo fora da janela, como mostrado na FIG. 5.

Como mencionado, deve haver pelo menos um quadrochave dentro do tubo de vídeo. O mecanismo do tubo de vídeo334 coleta os pixels dentro da janela nos quadros chave paracalcular modelos GMM de primeiro plano/plano de fundo para otubo de vídeo para o termo E1 acima. Comparado aos modelosde cor global usados pelo mecanismo de segmentação de recor-te de gráfico 3-D 304, o recortador de gráfico 2-D local 328usa modelos de cor mais acurados em janelas locais e obtémresultados significativamente melhores, ou seja, porque éusado para o refinamento de limite local 2-D.

A FIG. 6 mostra os resultados de segmentação antese depois do refinamento local. O refinamento resultado dorefinador de limite local 2-D 306 pelo mecanismo de segmen-tação de recorte de gráfico 3-D 304 não exige interações a-curadas de usuário, de fato, o usuário somente tem que colo-car a janela do tubo de video em quadros de tal maneira aexcluir cores irrelevantes. No quadro 602a, um remendo nouniforme de uma pessoa mostrada tem uma cor vermelha similara um bandeira no plano de fundo. Devido ao mecanismo de seg-mentação de recorte de gráfico 3-D 304 usar um avaliador deenergia de cor global 320, um erro de limite, como mostradono quadro 602b, deve ser introduzido à medida que o mecanis-mo de gráfico 3-D 312 decide que o remendo vermelho é partedo plano de fundo - devido ao remendo estar na borda externavisual do uniforme e ter uma cor notavelmente diferente doresto do uniforme verde. De fato, o avaliador de energia decor global 320 considera vermelho uma cor de plano de fundoforte devido à presença proeminente do quadro 602a da ban-deira vermelha. No quadro 604, entretanto, o refinador delimite local 2-D 306 usa um modelador de cor local 336 den-tro da menor janela do tubo de vídeo retangular 606. Com ummodelo de cor local que exclui a informação de cor globalirrelevante, o limite é assim mais precisamente refinado.

Anulador de Segmentação Exemplificado

Quando existem bordas ambíguas em torno do limitedo objeto de vídeo real ou o contraste do limite é mais bai-xo, o recortador de gráfico 2-D local 328 pode não ser capazde produzir um limite de objeto de vídeo correto. Isto podeser especialmente verdadeiro para finas estruturas visuais,tal como em um vídeo de dedos humanos, onde a fina estruturapode não ser automaticamente diferenciada. Um anulador desegmentação 330 pode ser fornecido para superar manualmenteestas dificuldades. Em uma implementação, o anulador de seg-mentação 330 tem ferramentas de usuário 340 que permitem queo usuário controle diretamente o limite de objeto com ótimaprecisão usando, por exemplo, duas pinceladas se sobrepõempara identificar regiões definidas de primeiro plano e deplano de fundo. Além disso, a operação de anulação dos usuá-rios pode ser salva em um disco e carregada para uso poste-rior.

Uma vez que o segmentador binário exemplificado302 segmentou o video clipe 108, o extrator de máscara 352extrai o objeto de video 106 para colagem. Em uma implemen-tação, o extrator de máscara 352 adota um algoritmo de mas-caramento coerente modificado 354 para calcular uma máscaraalfa fracional para o limite de objeto de video. Em uma im-plementação, o extrator de máscara 352 melhora o mascaramen-to Bayesiano convencional introduzindo um termo de regulari-zação para o alfa. Portanto, ele produz uma máscara alfa queobedece aos limites de segmentação binários anteriores, eexecuta bem mesmo quando as cores do primeiro plano/plano defundo são similares.

O extrator de máscara 352 processa regiões de li-mite incerto dilatando o limite de objeto de video binário,tipicamente por 10 pixels. Para pequenos furos ou lacunasestreitas no primeiro plano, esta dilatação pode resultar emnenhuma cor de plano de fundo ser amostrada próxima. Nestecaso, o extrator de máscara 352 ao invés amostra cores deplano de fundo a partir de quadros vizinhos.

O extrator de máscara 352 obtém as máscaras alfade objeto do vídeo para construir a seqüência de máscaras356 e tem um extrator de cor de primeiro plano 358 para ob-ter cores de primeiro plano para a seqüência de objeto devídeo 360. Então, o colador do objeto 362 pode colar a se-qüência de objeto de vídeo recortada 360 em um novo plano defundo 3 64.

Resultados Experimentais

Em experimentos exemplificados, testes foram exe-cutados em um computador de 3.1 GHz. Vídeo clipes fonte fo-ram obtidos com uma câmera DV no modo de varredura progres-siva em uma taxa de 12,5 quadros/segundo. Cada vídeo clipe108 foi dividido em aproximadamente 30 quadros por segmento,e cada segmento foi carregado e processado individualmente.

Os quadros chave foram usualmente amostrados a cada 10 qua-dros, enquanto alguns vídeos clipes 108 necessitaram de a-mostras mais densas devido a movimentos rápidos ou mudançasde sombra.

0 tempo de processamento foi de aproximadamentemeia hora para cada um dos segmentos de vídeo clipe 108 men-cionados acima. Em um experimento exemplificado, aproximada-mente 20% desse tempo foi gasto pelo mecanismo de pré-segmentação de quadro 310 para pré-processamento e outroscálculos; aproximadamente 40% do tempo foi gasto pelo meca-nismo do tubo de vídeo 334 para rastrear e ajustar, e os ou-tros 40% do tempo foram gastos pelo anulador de segmentação330 para operações de anulação.

Salvando Resultados Intermediários

O pré-processamento é tipicamente executado somen-te uma vez para cada segmento e os resultados a partir doparticionador de divisão de águas 316 e o mecanismo de seg-mentação de recorte de gráfico 3-D 304, em geral, podem sersalvos pelo salvador de mapa 350 e reutilizados como deseja-do. O mecanismo de gráfico 3-D 312 não é tipicamente respon-sável pela maior parte do tempo de processamento usado.

Métodos Exemplificados

A FIG. 7 representa um método exemplificado 700para segmentar um objeto de video fora de uma seqüência devideo. No fluxograma, as operações são resumidas em blocosindividuais. Partes do método exemplificado 700 podem serexecutadas por hardware, software, ou combinações de ambos,por exemplo, por componentes do mecanismo de recorte e cola-gem de video exemplificado 102.

No bloco 702, regiões são estabelecidas nos qua-dros de uma seqüência de video. Um mecanismo de pré-segmentação de quadro 310, por exemplo, pode aplicar um al-goritmo de divisão de águas de modo a renderizar quadros devideo em regiões atômicas. Usar regiões ao invés de pixeltem muitas vantagens. Para uma coisa, trabalhar com regiõespode exigir menos energia de processamento e acelerar opera-ções de recorte e colagem de video. Desde que uma dada regi-ão possa mudar posição, forma, e cor, etc., durante a repro-dução da seqüência de video, um desafio para definir os Ii-mites de tal objeto móvel é rastrear a região precisamenteatravés dos quadros da seqüência de video.

Assim, no bloco 704, a coerência temporal está em-butida em um gráfico 3-D das regiões. Um mecanismo de gráfi-co 3-D 312, por exemplo, pode construir o gráfico 3-D nãosomente formando associações entre regiões adjacentes nomesmo quadro, mas também entre uma região e possíveis regi-ões candidatas em quadros de vídeo temporariamente adjacen-tes. Isso leva a consistência em identificar uma dada regiãoentre quadros da seqüência, e isso, por sua vez, leva a umadelimitação mais afiada de objetos de vídeo na seqüência devídeo, desde que há menos incerteza à medida que a região semove e se transforma através de múltiplos quadros sobre seuma dada região é parte do objeto de vídeo 106 ou ao invés,parte do plano de fundo.

No bloco 706, uma segmentação de recorte de gráfi-co 3-D é aplicada baseada em um modelo de cor global. Um mo-delo de segmentação de recorte de gráfico 3-D 304, por exem-pio, pode iniciar a encontrar os limites visuais de um obje-to de vídeo usando uns poucos quadros chave, isto é, sele-cionados como bons modelos do objeto de vídeo a ser cortado.Trabalhar a partir desses quadros de modelo chave a outrosquadros na seqüência de vídeo, um modelo de cor global per-mite que as bordas visuais do objeto de vídeo sejam distin-guidas das cores de plano de fundo. Desde que o gráfico 3-Dé construído em regiões e não pixels individuais, essa seg-mentação é mais rápida do que as técnicas de segmentaçãoconvencionais.

No bloco 708, uma segmentação de recorte de gráfi-co 3-D é aplicada baseada em um modelo de cor local. Um re-finador de limite local 2-D 306, por exemplo, pode limitar orefinamento de limite a esse contido em uma janela selecio-nada por usuário em um quadro de video. A janela selecionadapode ser automaticamente propagada através de quadros da se-qüência de video, e as cores a serem usadas para tomar deci-sões sobre o refinamento do limite de objeto de video podemser limitadas àquelas na seqüência de janela. Isso pode re-sultar em um limite de objeto de video muito mais precisoquando o objeto de video tem detalhes menores em suas bordasvisuais.

Conclusão

Ά discussão anterior descreve sistemas e métodosexemplificados para recorte e colagem de objeto de video.Embora a questão tenha sido descrita em linguagem especificapara características estruturais e/ou ações metodológicas, épara ser entendido que a questão definida nas reivindicaçõesem anexo não necessariamente está limitada às característi-cas específicas ou ações descritas acima. De preferência, ascaracterísticas e ações específicas descritas acima são des-critas como formas exemplificadas de implementar as reivin-dicações.

Claims

1. Método, CARACTERIZADO pelo fato de que compreende :dividir quadros (702) de uma seqüência de vídeo(108) em regiões (318) antes de aplicar uma segmentação derecorte de gráfico 3-D (204) para designar um contorno (504)de um objeto de vídeo (106) na seqüência de vídeo (108);construir (704) um gráfico tridimensional (400)incluindo embutir coerência temporal (326) no gráfico tridi-mensional (400) formando associações entre regiões corres-pondentes (318) em quadros de vídeo adjacentes;aplicar a segmentação de recorte de gráfico 3-D(204) ao gráfico tridimensional (400) de acordo com um mode-lo de cor global (706) para derivar uma segmentação bináriarepresentando o contorno (504) do objeto de vídeo; eaplicar uma segmentação de recorte de gráfico 2-D(708) a pelo menos alguma da segmentação binária de acordocom um modelo de cor local para obter um contorno refinado(508) do objeto de vídeo (106).

2. Método, de acordo com a reivindicação 1,CARACTERIZADO pelo fato de que dividir os quadros de uma se-qüência de vídeo (108) em regiões (318) inclui pré-segmentar(202) a seqüência de vídeo (108) usando uma técnica de divi-são de águas (316).

3. Método, de acordo com a reivindicação 1,CARACTERIZADO adicionalmente pelo fato de que compreende a-plicar uma técnica de mascaramento coerente modificada(210) (354) à segmentação binária (302) (706) para obter umaseqüência de máscaras (356) para recortar o objeto de vídeo(106) da seqüência de vídeo (108).

4. Método, de acordo com a reivindicação 3,CARACTERIZADO adicionalmente pelo fato de que compreende re-cortar o objeto de vídeo (106) da seqüência de vídeo (108) ecolar o objeto de vídeo (106) em uma seqüência de vídeo di-ferente (364).

5. Método, de acordo com a reivindicação 1,CARACTERIZADO adicionalmente pelo fato de que compreende re-ceber uma entrada de seleção de janela (338), onde a entradade seleção de janela (338) designa parte (502) de um quadrode vídeo da seqüência de vídeo;automaticamente gerar uma seqüência temporal dejanelas (334) na seqüência de vídeo (108) baseada na entradade seleção de janela (338); eaplicar a segmentação de recorte de gráfico 2-D(328) na seqüência de janelas (334); elimitar o modelo de cor local (336) a cores na se-qüência de janelas (334) .

6. Método, CARACTERIZADO pelo fato de que compre-ende :pré-segmentar (202) quadros de uma seqüência devídeo (108) em regiões (318);selecionar dois quadros modelo (110) da seqüênciade vídeo (108), onde cada um dos quadros modelo (110) tem umprimeiro plano representando um objeto de vídeo (106), e umplano de fundo;construir um gráfico tridimensional (3-D) (400) apartir de um volume 3-D dos quadros temporariamente limita-dos pelos dois quadros modelo, incluindoassociar as regiões (318) em um único quadro comregiões adjacentes (408, 410, 412, 414) no mesmo quadro eassociar as regiões (318) no único quadro com re-giões candidatas correspondentes em quadros adjacentes (416,-418, 420) (422, 424, 426, 428, 430); esegmentar o gráfico 3-D (400) em regiões de pri-meiro plano associadas e regiões de plano de fundo associa-das de acordo com um modelo de cor global (706), onde as re-giões de primeiro plano associadas representam o objeto devideo (106) nos quadros da seqüência de video (108).

7. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que pré-segmentar (202) quadrosusa uma de uma técnica de divisão de águas (316) ou uma téc-nica de deslizamento.

8. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que associar as regiões (318) noúnico quadro com regiões candidatas correspondentes (416,-418, 420) (422, 424, 426, 428, 430) em quadros adjacentesadicionalmente inclui associar uma região (318) no únicoquadro com regiões nos quadros adjacentes que repousam emuma dado raio de uma posição igualmente correspondente daregião dos quadros adjacentes.

9. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que associar as regiões (318) noúnico quadro com regiões candidatas correspondentes (416,-418, 420) (422, 424, 426, 428, 430) em quadros adjacentesadicionalmente inclui associar as regiões no único quadrocom as regiões nos quadros adjacentes de acordo com uma com-paração de energia de cor (320) entre as regiões no únicoquadro e as regiões nos quadros adjacentes.

10. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que a segmentação do gráfico 3-D(400) em regiões de primeiro plano associadas e regiões deplano de fundo associadas é alcançada minimizando-se umafunção de energia (322) do gráfico 3-D (400).

11. Método, de acordo com a reivindicação 10,.CARACTERIZADO pelo fato de que a função de energia a ser mi-nimizada (322) é representada por<formula>formula see original document page 35</formula>onde xr e Xj são os rótulos de primeiro pla-no/plano de fundo da região r e s respectivamente;X = {xr:Vr}; E1 representa a conformidade de uma cor de regiãor com o modelo de cor de primeiro plano/plano de fundo as-sociado com a informação de cor nos dois quadros modelo; E2representa diferenças de cor entre duas regiões adjacentesno mesmo quadro; E3 representa diferenças de cor entre duasregiões em dois quadros adjacentes; e λι e X2 são constantes.

12. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que o modelo de cor global (320)inclui distribuições de cor de primeiro plano/plano de fundoderivadas globalmente dos dois quadros modelo (110).

13. Método, de acordo com a reivindicação 6,CARACTERIZADO adicionalmente pelo fato de que compreende:especificar uma parte de tubo de video (334) dográfico 3-D (400), onde o tubo de vídeo (334) compreende umaparte (502) de um quadro de vídeo e partes correspondentesdos outros quadros de vídeo da seqüência de vídeo (108); eaplicar um modelo de cor local (336) a uma segmen-tação de recorte de gráfico bidimensional (2-D) (328) naparte de tubo de vídeo (334) para refinar um limite (504)entre as regiões de primeiro plano e as regiões de plano defundo com o tubo de vídeo (334) .

14. Método, de acordo com a reivindicação 13,CARACTERIZADO pelo fato de que especificar uma parte de tubode vídeo (334) adicionalmente inclui especificar uma primei-ra janela de tubo de vídeo (502) em um primeiro quadro e umasegunda janela de tubo de vídeo (502) em um segundo quadro,onde pelo menos um dos dois modelos de quadro (110) está en-tre o primeiro quadro e o segundo quadro.

15. Método, de acordo com a reivindicação 14,CARACTERIZADO adicionalmente pelo fato de que compreenderastrear de forma bidirecional (332) uma da primeira ou dasegunda janela (502) através de uma parte da seqüência devídeo (108) para automaticamente gerar janelas adicionais dotubo de vídeo (334) em quadros entre o primeiro e o segundoquadro.

16. Método, de acordo com a reivindicação 13,CARACTERIZADO adicionalmente pelo fato de que compreende a-plicar uma segmentação de recorte de gráfico 2-D (206) a ca-da janela (502) da parte de tubo de vídeo (334) usando mode-los de cor de primeiro plano e de plano de fundo (336) deri-vados de cores de uma das janelas de tubo de vídeo (502) emum dos dois quadros de modelo.

17. Método, de acordo com a reivindicação 16,CARACTERIZADO adicionalmente pelo fato de que compreende co-nectar de forma inconsútil um limite refinado (508) em umajanela de tubo de video (502) a um limite pré-existente(510, 512) adjacente à janela de tubo de video (502).

18. Método, de acordo com a reivindicação 15,CARACTERIZADO adicionalmente pelo fato de que compreende a-nular (330) a segmentação 3-D e a segmentação 2-D determi-nando-se manualmente (340) pixels de primeiro plano e deplano de fundo de um quadro de video depois que uma da seg-mentação 3-D ou da segmentação 2-D acontece.

19. Método, de acordo com a reivindicação 6,CARACTERIZADO adicionalmente pelo fato de que compreende a-plicar uma técnica de mascaramento coerente modificada (210,-354) para separar as regiões de primeiro plano das regiõesde plano de fundo.

20. Sistema, CARACTERIZADO pelo fato de que com-preende :dispositivo para determinar regiões visuais (318)que resistem de quadro a quadro em uma seqüência de vídeo;dispositivo para construir um gráfico tridimensio-nal (400) a partir das regiões (318) da seqüência de vídeo;dispositivo para embutir coerência temporal (326)no gráfico tridimensional (400) incluindo associações entreregiões correspondentes (318) (416, 418, 420) (422, 424,-426, 428, 430) em quadros adjacentes da seqüência de vídeo(108) ;dispositivo para aplicar uma segmentação de recor-te de gráfico tridimensional (204) ao gráfico tridimensional(400), baseada em cores globais da seqüência de video (108),de modo a obter resultados de segmentação;dispositivo para designar a parte local (502) dosresultados da segmentação; edispositivo para aplicar uma segmentação de recor-te de gráfico bidimensional (206) à parte local (502) basea-da em cores locais (336) da parte local (502).