BR102021025992A2 - Método implementado por computador e sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3d, e, meio de armazenamento legível por computador não transitório - Google Patents

Método implementado por computador e sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3d, e, meio de armazenamento legível por computador não transitório Download PDF

Info

Publication number
BR102021025992A2
BR102021025992A2 BR102021025992-2A BR102021025992A BR102021025992A2 BR 102021025992 A2 BR102021025992 A2 BR 102021025992A2 BR 102021025992 A BR102021025992 A BR 102021025992A BR 102021025992 A2 BR102021025992 A2 BR 102021025992A2
Authority
BR
Brazil
Prior art keywords
image
visual effect
input
score
views
Prior art date
Application number
BR102021025992-2A
Other languages
English (en)
Inventor
Diogo Carbonera Luvizon
Gustavo Sutter Pessurno De Carvalho
Otavio Augusto Bizetto Penatti
Original Assignee
Samsung Eletrônica da Amazônia Ltda.
Filing date
Publication date
Application filed by Samsung Eletrônica da Amazônia Ltda. filed Critical Samsung Eletrônica da Amazônia Ltda.
Priority to US17/673,351 priority Critical patent/US12051150B2/en
Publication of BR102021025992A2 publication Critical patent/BR102021025992A2/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion

Abstract

A presente invenção se refere a um método implementado por computador para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H × W. O método proposto compreendendo a etapa de computar (207) um escore de imagem (208) para o conjunto de vistas almejadas (203) com base no número de pixels não ocluídos no conjunto de vistas almejadas (203), em que o escore de imagem indica a adequação da imagem de entrada (201) para a síntese de novas vistas em um efeito visual 3D. A presente invenção também se refere a um sistema e um meio de armazenamento legível por computador não transitório adaptado para realizar o dito método para classificar uma imagem de entrada para a síntese de novas vista em um efeito visual 3D.

Description

MÉTODO IMPLEMENTADO POR COMPUTADOR E SISTEMA PARA CLASSIFICAR UMA IMAGEM DE ENTRADA PARA SÍNTESE DE NOVAS VISTAS EM UM EFEITO VISUAL 3D, E, MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO CAMPO DA DESCRIÇÃO
[001] A presente invenção refere-se a um novo método para classificar uma imagem candidata para gerar novas vistas considerando uma representação 3D. A imagem candidata é classificada computando-se um escore com base no número de pixels não ocluídos no conjunto de vistas almejadas gerado por uma representação de imagem da imagem candidata.
DESCRIÇÃO DA TÉCNICA RELACIONADA
[002] Síntese de novas vistas a partir de uma única imagem, é uma importante tecnologia que possibilita inúmeras novas aplicações relacionadas a efeitos 3D e realidade aumentada e virtual para dispositivos eletrônicos equipados com visor digital, como Smartphones, Smart TVs, Tablets, dentre tantos outros. Essa tecnologia fornece ao usuário uma percepção de profundidade, mesmo a partir de uma imagem única estática.
[003] Sintetizar novas vistas a partir de uma única imagem é uma tarefa difícil, uma vez que a imagem de entrada é uma projeção 2D de uma cena 3D. A geometria da cena pode ser parcialmente recuperada e representada por um mapa de profundidade, que codifica as informações de profundidade de cada pixel da imagem em relação ao ponto de vista da câmera. No entanto, mesmo quando informações de profundidade precisas estão disponíveis, renderizar uma imagem de diferentes pontos de vista pode resultar na perda de regiões da imagem. Este efeito ocorre devido a regiões ocluídas na imagem original que sofrem desoclusão quando o ponto de vista muda.
[004] Para lidar com casos de desoclusão, duas abordagens podem ser geralmente empregadas: modificar o mapa de profundidade a fim de evitar desoclusões ou preencher as regiões ausentes da imagem com um conteúdo de imagem gerado artificialmente. A primeira abordagem pode resultar em distorções geométricas e não pode ser aplicada efetivamente em cenas com estrutura geométrica complexa. A segunda abordagem tem o desafio de gerar conteúdo de imagem artificial que imite imagens reais. Esta abordagem é amplamente utilizada por trabalhos existentes, especialmente após os avanços recentes em redes neurais artificiais para retoque de imagens.
[005] Mesmo que as redes neurais artificiais possam ser empregadas para preencher as regiões ausentes da imagem, essa estratégia tem duas desvantagens. Em primeiro lugar, é computacionalmente custosa e exige alta capacidade computacional para rodar redes neurais complexas com baixa latência, o que impede que essa estratégia seja utilizada em tempo real para a maioria das aplicações. Em segundo lugar, preencher as regiões ausentes da imagem individualmente para cada novo ponto de vista pode resultar em incoerência visual dentre diferentes pontos de vista, tornando esta estratégia não adequada para aplicações de realidade virtual e aumentada.
[006] Essas limitações impedem o uso de estratégias semelhantes para retoque de imagem após a renderização. Portanto, a solução mais comum é gerar uma representação intermediária que codifique simultaneamente a imagem original, a estrutura geométrica da cena e o conteúdo da imagem gerado artificialmente para as regiões ocluídas.
[007] Dentre as muitas representações possíveis, as mais comuns são nuvens de pontos, imagens de profundidade em camadas (LDI), malhas de superfície e imagens de múltiplos planos (MPI). A renderização de nuvens de pontos, no entanto, é um processo custoso computacionalmente, o que é proibitivo para imagens de alta resolução em cenários com restrições de hardware. A representação LDI foi proposta para representar uma cena 3D com baixos requisitos de memória em comparação com nuvens de pontos, mas também resulta em novas vistas com qualidade de imagem inferior. As malhas de superfície com texturas coloridas são uma representação poderosa que permite a codificação de cenas com geometria complexa enquanto fornece u bom equilíbrio entre qualidade e capacidade computacionais. No entanto, gerar uma malha a partir de uma única imagem é um processo complexo.
[008] Diferentemente dos casos supracitados, a MPI é uma representação simples que resulta em resultados satisfatórios quando estimado a partir de uma única imagem [1] . Outra vantagem da MPI é seu processo de renderização simples, que requer apenas transformações homográficas planas e composição de imagem RGB-alfa.
[009] No entanto, sintetizar conteúdo visual plausível para imagens a partir de diferentes modalidades ainda é um problema em aberto. Essa limitação prejudica a capacidade dos métodos atuais de sintetizar novas vistas a partir de uma única imagem que se pareçam com imagens reais. Considerando a tarefa de retoque de regiões oclusas da imagem, algumas fotos são mais desafiadoras do que outras, já que quanto mais pixels exigem o retoque de imagem, mais difícil é sintetizar novas vistas que pareçam realistas e naturais.
[0010] Existem algumas técnicas que lidam com a tarefa de gerar artificialmente novas vistas que consideram múltiplas vistas como entrada, em que o objetivo principal é criar uma representação que seja capaz de generalizar para diferentes pontos de vista de destino, que consideram um conjunto limitado de pontos de vista de origem.
[0011] Por exemplo, em “DEEPSTEREO: LEARNING TO PREDICT NEW VIEWS FROM REAL WORLD IMAGERY” (US 9.916.679 B2), um modelo é treinado com dados em grande escala para aprender a produzir novas vistas a partir de um conjunto de imagens de entrada, e em “ARTIFICIALLY RENDERING IMAGES USING VIEWPOINTS INTERPOLATION AND EXTRAPOLATION” (US20170084001A1), um método é proposto para gerar uma terceira vista da cena, reunindo-se informações a partir de duas imagens de origem. Uma abordagem semelhante pode ser empregada para aprender uma representação MPI, como em [2] . Visto que várias imagens de entrada calibradas são usadas durante a inferência, os métodos citados se beneficiam da visão estéreo, portanto, informações de profundidade e textura ocluídas podem ser inferidas de forma mais eficaz. A principal limitação dessas estratégias é o requisito de diversas vistas de entrada calibradas, que frequentemente não estão disponíveis para casos de uso gerais.
[0012] Uma tarefa mais desafiadora é gerar novas vistas a partir de uma única imagem. Este problema requer estimar as informações geométricas, bem como a textura de cor para regiões oclusas a partir de apenas uma vista monocular. Métodos foram propostos para esta tarefa que consideram máscaras de segmentação, como em “PARALLAX DEPTH RENDERING” (US20150235408A1), ou segmentação simples de primeiro e segundo plano, como em “METHOD AND SYSTEM OF BACKGROUND-FOREGROUND SEGMENTATION FOR IMAGE PROCESSING” (US9741125B2a). No entanto, essas abordagens falham em fornecer uma percepção 3D real da cena, visto que são com base em muito poucas camadas planas. Uma estratégia diferente é aprender uma representação MPI a partir de vistas únicas considerando uma estimativa de profundidade monocular, como em [1] . De forma semelhante, uma representação de malha 3D pode ser obtida a partir de uma única imagem, como em [3] . Embora esses métodos sejam capazes de produzir resultados impressionantes para alguns casos, eles ainda são limitados pela qualidade das imagens geradas nas regiões ocluídas. Essa limitação se torna mais relevante para imagens mais desafiadoras, em geral imagens que têm um número maior de pixels em regiões desocluídas para um dado efeito.
[0013] Com relação ao ranqueamento geral de imagens ou classificação de imagens, várias técnicas foram propostas nos últimos anos. Uma tarefa importante é ranquear as imagens a partir de uma galeria, em que as imagens devem ser organizadas automaticamente de acordo com sua relevância. Por exemplo, em “RANKING IMAGE IMPORTANCE WITH A PHOTO-COLLAGE” (US 9.449,411B2) é descrito um sistema capaz de ranquear automaticamente uma pluralidade de imagens de acordo com dois ou mais atributos, em que o objetivo principal é resultar em uma saída de fotocolagem.
[0014] Um problema relacionado é fornecer a seleção de imagens a partir de um conjunto de imagens, considerando um dado conjunto de imagens de origem. Este problema clássico pode ser tratado por algoritmos de agrupamento tradicionais, como em “AUTOMATIC SELECTION OF DIGITAL IMAGES FROM A MULTI-SOURCED COLLECTION OF DIGITAL IMAGES” (US 9.195.678 B2) e em “SYSTEM AND METHOD FOR AUTOMATICALLY CREATING A PHOTO CALENDAR” (US 9.390.107B2). Essa estratégia de agrupamento está ligada ao conteúdo visual da imagem. Por exemplo, para uma imagem de consulta a partir de uma cena de paisagem, é esperado que sejam selecionadas imagens que sejam semelhantes em alguns aspectos à imagem de paisagem fornecida. Diferentemente, no caso da presente invenção, o objetivo é ranquear as imagens que consideram um efeito visual 3D alvo, e não algumas imagens de referência.
[0015] O principal desafio relacionado à síntese de novas vistas a partir de uma única imagem é preencher artificialmente os buracos nas novas vistas renderizadas. Para isso, duas estratégias podem ser adotadas: pré-processar o mapa de profundidade para evitar a geração de buracos no ponto de vista alvo; ou gerar texturas para as regiões da imagem ausentes, conforme descrito em “FILLING DISOCCLUSIONS IN A VIRTUAL VIEW” (EP 2596475B1). Estratégias de filtragem são propostas para reduzir os artefatos produzidos pela renderização com base em profundidade, como em “GHOST ARTIFACT REDUCTION FOR RENDERING 2.5D GRAPHICS” (US 7822.265B2). No entanto, independentemente do método, ao renderizar uma imagem monocular com base nas informações de profundidade para um ponto de vista diferente, artefatos podem ser produzidos devido à falta de informações nas regiões ocluídas.
[0016] Como pode ser visto, muitas estratégias diferentes com base na geração de textura de cor artificial podem ser usadas para retocar as representações da imagem para evitar a exposição de buracos na vista recém-gerada. No entanto, essas estratégias são computacionalmente custosas ou resultam em imagens que não parecem realistas ou naturais.
[0017] Adicionalmente, uma aplicação ou produto direcionado a produzir novas vistas visualmente plausíveis e agradáveis para uma alta diversidade de imagens de entrada precisaria pré-selecionar, filtrar ou ranquear as imagens que têm conteúdo mais adequado para tal efeito visual.
[0018] Portanto, o estado da técnica carece de uma solução capaz de auxiliar no processo de geração de um bom efeito visual 3D a partir de uma imagem. Analogamente, o estado da técnica carece de uma solução capaz de selecionar um bom efeito visual 3D para uma dada imagem de modo que o efeito visual 3D resultante tenha bons resultados para uma dada imagem.
SUMÁRIO DA INVENÇÃO
[0019] Considerando as limitações e dificuldades já mencionadas relacionadas à síntese de novas vistas a partir de uma única imagem, o problema que esta invenção se destina a solucionar é a tarefa de ranquear e selecionar imagens candidatas para a síntese de novas vistas a partir de uma única imagem, que consideram um dado efeito visual 3D.
[0020] A fim de alcançar este objetivo, a presente invenção propõe um método implementado por computador para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem que compreende um conjunto de vistas almejadas com base no efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H x W. O método compreende adicionalmente a etapa de computar um escore de imagem St para o conjunto de vistas almejadas com base no número de pixels não ocluídos no conjunto de vistas t almejadas, em que o escore da imagem indica a adequação da imagem de entrada para a síntese de novas vistas em um efeito visual 3D.
[0021] A presente invenção também se refere a um sistema e um meio de armazenamento legível por computador não transitório adaptado para realizar o dito método para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D.
[0022] De acordo com uma modalidade alternativa da invenção, é proposto um método para ranquear e classificar uma pluralidade de imagens para a síntese de novas vistas. Um conjunto de imagens pode ser ranqueado para um dado efeito visual 3D, em que as imagens ranqueadas em primeiro são mais adequadas para um dado efeito visual do que as imagens ranqueadas por último, isto é, as imagens ranqueadas em primeiro têm menores regiões de desoclusões ou, de forma análoga, regiões maiores de não desoclusões.
[0023] O problema inverso também pode ser tratado de acordo com outra modalidade da presente invenção. Considerando um conjunto de efeitos visuais 3D e uma única imagem, cada efeito visual individual pode ser ranqueado de acordo com a imagem específica, portanto, o melhor efeito visual pode ser aplicado à uma dada imagem, a fim de minimizar a quantidade de desoclusões de imagem expostas durante o efeito visual.
[0024] A fim de evitar confusão, doravante, refere-se ao termo escore de não desoclusão simplesmente como escore de imagem, em que quanto maior o escore de imagem, menor a quantidade de pixels de imagem desocluídos. Em outras palavras, imagens ou efeitos com escores mais altas são melhores.
BREVE DESCRIÇÃO DOS DESENHOS
[0025] A invenção é explicada em mais detalhes abaixo com base nas Figuras. São mostrados nas mesmas:
a Figura 1 mostra um exemplo de geração de uma representação de imagem de múltiplos planos (MPI) a partir de uma única imagem e (opcionalmente) um mapa de profundidade de entrada para a produção de novas vistas da cena, em que casos de desoclusões de imagem são mostrados;
a Figura 2 mostra um exemplo ilustrativo de como o escore da imagem é obtido para uma imagem de entrada e um conjunto de pontos de vista alvo, de acordo com a modalidade preferencial da presente invenção;
a Figura 3 mostra uma modalidade alternativa da invenção, que consiste em um método para seleção de imagem de galeria para geração de efeito visual 3D, que considera uma pluralidade de imagens de entrada e um efeito visual 3D fixo, em que a melhor imagem é selecionada com base no escore de imagem;
a Figura 4 mostra outra modalidade alternativa da invenção, que consiste em um método para geração de efeito visual 3D realista a partir de uma única imagem e a partir de um conjunto de diferentes efeitos visuais 3D, em que o melhor efeito visual é selecionado com base no escore de imagem;
a Figura 5 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposto e a métrica LPIPS para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 6 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposto e a métrica PNSE para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 7 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposta e a métrica SSIM para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 8 mostra os resultados dos histogramas de distribuição do escore de imagem, que consideram um conjunto de 3.000 mil imagens da Internet, com diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 9 mostra alguns exemplos de resultados qualitativos a partir do método proposto pela presente invenção, em que diferentes imagens com diversos tipos de conteúdo são mostradas com seus respectivos escores de imagem computadas por nosso método.
DESCRIÇÃO DETALHADA DA INVENÇÃO:
[0026] A presente invenção se destina a fornecer um novo método para selecionar imagens que são mais adequadas do que outras para gerar novas vistas para um efeito visual 3D. Para isso, propomos um novo método de ranqueamento e classificação de imagens considerando um dado efeito visual 3D.
[0027] A fim de alcançar este objetivo, a presente invenção propõe um método implementado por computador para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem que compreende um conjunto de vistas almejadas com base em um efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H X W. O método compreende adicionalmente a etapa de computar um escore de imagem St para o conjunto de vistas almejadas com base no número de pixels não ocluídos no conjunto de vistas almejadas, em que o escore da imagem indica a adequação da imagem de entrada para a síntese de novas vistas em um efeito visual 3D.
[0028] Para isso, consideramos a síntese de novas vistas como um processo que depende da geração de uma representação de imagem que codifica profundidade e cor, por exemplo, como em uma representação de imagem em múltiplos planos (MPI) ou em uma representação de formato colorido, que pode ser, em seguida, renderizada a partir de diferentes pontos de vista. Essas representações de imagens são frequentemente compostas de pixels da imagem de origem e pixels sintetizados por um gerador de imagens, que correspondem aos pixels retocados.
[0029] Adicionalmente, a representação da imagem também contém propriedades geométricas, como informações de profundidade que determinam quais pixels são expostos quando renderizados a partir de diferentes pontos de vista. Por exemplo, em uma representação de formato 3D, uma superfície pode ocluir outras regiões, dependendo do ponto de vista. Portanto, a quantidade de pixels das regiões oclusas na imagem de origem que são expostas para um dado ponto de vista pode ser estimada e usada para fornecer uma métrica de desoclusão. De maneira análoga, a quantidade de pixels na vista recém-sintetizada proveniente das partes visíveis da imagem original deriva uma métrica de não desoclusão.
[0030] As métricas de desoclusão ou não desoclusão podem ser utilizadas para determinar quais imagens apresentam alto escore de desoclusão ou baixo escore de desoclusão, o que possibilita a escolha das melhores imagens para um efeito visual específico. O método descrito pode ser aplicado a uma pluralidade de diferentes representações comumente usadas para uma síntese de novas vistas a partir de uma única imagem. Além disso, o método também é eficiente, pode ser implementado em diversos dispositivos equipados com visores ou câmeras digitais, como Smartphones, Smart TVs, Tablets, etc.
[0031] Abaixo, serão descritas as modalidades preferenciais da invenção, em que a representação da imagem é a representação da imagem em múltiplos planos (MPI). No entanto, um versado na técnica entenderá que a presente invenção pode ser aplicada a diferentes técnicas de representação de imagem.
[0032] A Figura 1 mostra um exemplo de geração de uma representação de imagem em múltiplos planos (MPI) a partir de uma imagem e de um mapa de profundidade para produzir novas vistas da cena com casos de desoclusões de imagem. A representação de imagem em múltiplos planos (MPI) é ilustrativa para o método para ranquear e classificar imagens candidatas para um dado efeito visual 3D, proposto pela modalidade preferencial da presente invenção.
[0033] De acordo com a Figura 1, a representação MPI é definida por um conjunto de camadas planas de imagem D como em 104, em que cada camada é codificada como uma imagem RGB-alfa à distância d em relação ao ponto de vista 105, formalmente definido por:
{(Ci,αi)}Di=1 =fӨ(I), (1)
em que Ci e ai correspondem aos valores de cor e alfa da i-ésima camada de imagem, fӨ representa um método genérico 103 que produz uma MPI a partir de uma única imagem 101 e, opcionalmente, a partir de um mapa de profundidade 102, e I é a imagem de entrada 101.
[0034] A representação MPI 104 pode ser renderizada para o ponto de vista de origem 105 e para os novos pontos de vista 106 com base em operações de deformação (warping) e composição. O processo de deformação é definido por uma função de deformação com base na profundidade de cada plano de imagem que pode ser aplicada individualmente para os canais de cor e alfa, como definido por:
CJi = Wvs,vt (di,ci)(2)
αJi = Wvs,vt(di,αi), (3)
em que c1 e a1i correspondem aos valores de cor e alfa da i-ésima camada da imagem após a deformação a partir do ponto de vista de origem us para o ponto de vista alvo ut, e W é uma função de deformação genérica, com base, em geral, na homografia planar para a representação MPI. Após a deformação para a vista almejada, a representação MPI resultante pode ser renderizada pela operação sobrecompósita, definida por:
It = ΣDi=1(c'iα'iπDj=i+1(1-α'j)), (4)
em que It é a nova vista almejada renderizada.
[0035] Isso resulta em uma nova imagem RGB derivada a partir da composição das camadas individuais da imagem na vista almejada, modulada pela transparência de cada canal alfa. Quando a representação MPI 104 é renderizada para o ponto de vista de origem 105, a imagem resultante 107 não tem desoclusões. No entanto, quando a representação é renderizada para a vista almejada 106, a imagem resultante 108 tem regiões desocluídas 109 expostas devido ao processo de deformação.
[0036] Para implementar a estratégia de ranqueamento, a presente invenção propõe um escore de imagem. O escore da imagem pode ser computado para uma dada imagem e um dado conjunto de pontos de vista alvo, que podem ser determinados por um dado efeito visual 3D. Mais especificamente, o escore da imagem é uma medida da quantidade de pixels da imagem na imagem de origem que não sofrem desoclusão nos pontos de vista alvo. Adicionalmente, um valor limiar também pode ser aplicado ao escore para determinar se uma dada imagem é adequada para um dado efeito visual 3D. Uma definição formal do escore de imagem considerando a representação MPI é fornecida a seguir.
[0037] A Figura 2 ilustra como o escore de imagem é obtido para uma imagem de entrada e um conjunto de pontos de vista alvo. De acordo com a Figura 2, é considerado que um método genérico 204 recebe como entrada uma imagem 201 e (opcionalmente) um mapa de profundidade 202 para produzir uma representação de imagem que poderia ser uma representação MPI, como em 205. Esta representação é analisada de acordo com um conjunto de vistas almejadas 203, que são definidas por um efeito visual 3D de entrada. O conjunto de vistas almejadas 203 pode ser formalmente definido por V = {v1,v2,...} , em que t é o número de vistas almejadas consideradas. Para cada amostra em V 206, o método proposto pela presente invenção computa em 207 um escore de imagem St 208.
[0038] No caso de uma representação MPI de acordo com a modalidade preferencial da invenção, o escore de imagem pode ser computado com base na operação sobrecompósita das camadas alfa deformadas, definido por:
Mt = ΣDi=1(α'iπDj=i+1(1-α'j)), (5)
em que Mt é o alfa compósito que representa os valores de pixels não ocluídos.
[0039] Em outras palavras, Mt está relacionado à vista almejada renderizada It, de tal maneira que, quando os valores em Mt estão próximos de um, os valores correspondentes em It são provenientes da imagem de entrada, e que, quando os valores em Mt estão próximos de zero, os valores correspondentes em It são provenientes de regiões oclusas na imagem de entrada.
[0040] Portanto, definimos uma métrica para não desoclusão pela seguinte equação:
Figure img0001
que essencialmente conta o número de pixels não ocluídos na vista almejada, considerando uma imagem de tamanho H × W.
[0041] Na equação anterior, aplicamos um limiar P em alfa a fim de decidir se um valor alfa é ou não considerado como pixel ocluído ou não ocluído. Assumindo valores alfa normalizados em [0, 1] , o limiar P pode ser ajustado como qualquer valor próximo e menor do que um para uma análise conservadora. Na seção de resultados da presente descrição, alguns resultados para diferentes valores de P são mostrados. É importante observar que o limiar P é aplicado em relação aos pixels da imagem, portanto, ele não está diretamente relacionado ao valor de escore de imagem.
[0042] Considerando um efeito visual 3D descrito por um conjunto de vistas almejadas em V, o escore final da imagem é dado pela seguinte equação:
Figure img0002
que resume a métrica de não desoclusão considerando os valores médios para um dado conjunto de vistas almejadas, limitados superiormente pelo pior caso (valor St menor).
[0043] O escore resultante é um valor escalar no intervalo [0, 1] , que pode ser usado diretamente para comparar diferentes imagens para um dado efeito visual ou usado para comparar diferentes efeitos visuais para uma dada imagem de entrada. Quanto mais alto o escore, menos pixels são desolcluídos, o que significa que quanto mais alto o escore, melhor será a imagem para os dados efeitos visuais ou melhor será o efeito para uma dada imagem. Em outras palavras, imagens ou efeitos com escores mais altos são melhores.
[0044] A presente invenção pode ser adaptada para diferentes aplicações que consideram a geração de efeitos visuais 3D a partir de uma única imagem. A seguir, mostramos como o método de classificação de uma imagem de entrada para síntese de novas vistas em um efeito visual 3D proposto pela invenção pode ser aplicado, porém, sem limitação, a dois casos de uso diferentes.
SEGUNDA MODALIDADE: SELEÇÃO DE IMAGENS DE GALERIA PARA UM EFEITO VISUAL 3D DESEJADO
[0045] Nesta modalidade, o objetivo é ranquear e classificar um subconjunto de imagens a partir de uma pluralidade de imagens armazenadas na galeria, memória ou base de dados. Este caso de uso é ilustrado na Figura 3, que ilustra uma modalidade alternativa da invenção para seleção de imagem de galeria para geração de efeito visual 3D. A partir de um conjunto de imagens na galeria 301, o escore de imagem é computado em 302 para cada imagem, de acordo com um efeito visual 3D predefinido.
[0046] Este processo resulta em um valor de escore para cada imagem. Em seguida, as imagens são ranqueadas por ordem decrescente de seus escores em 303, o que resulta em uma lista de imagens ranqueadas em 304 com base em seus escores de imagem 302.
[0047] Preferencialmente, a partir deste conjunto de imagens ordenadas, um número fixo de imagens pode ser selecionado em 305 para gerar uma animação de efeito visual 3D em 306 com base na síntese de novas vistas.
[0048] Alternativamente, o método compreende uma etapa de estabelecer um valor limiar para o escore de imagem, em que as imagens de entrada são adequadas para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar e, em seguida, gerar 306 uma animação de efeito visual 3D para todas as imagens de entrada com um escore de imagem superior ao valor limiar.
TERCEIRA MODALIDADE: EFEITO VISUAL 3D REALÍSTICO PARA UMA IMAGEM DESEJADA
[0049] O processo de geração de uma foto 3D a partir de uma única imagem consiste em produzir um efeito visual 3D a partir de uma única imagem simulando-se o movimento da câmera na cena 3D. Este movimento da câmera pode ser uma simples translação horizontal ou vertical para produzir um efeito de paralaxe visual ou pode ser um movimento 3D mais sofisticado que envolve zoom de aproximação e de afastamento, rotações, panorâmico, inclinação, etc. Nesta modalidade, o objetivo é avaliar um conjunto de possíveis efeitos visuais 3D, isto é, um conjunto de diferentes vistas almejadas, para uma dada imagem de entrada.
[0050] A ideia principal deste caso de uso é que alguns efeitos 3D são mais adequados para uma dada imagem do que outros. Por exemplo, efeitos com base em zoom de aproximação devem resultar em melhor qualidade visual para uma imagem com um objeto centralizado na cena do que um efeito com translação horizontal. Esta modalidade é ilustrada na Figura 4, que mostra a geração de efeito visual 3D realista a partir de uma única imagem e de um conjunto de possíveis efeitos 3D.
[0051] Para uma dada imagem de entrada 401, um conjunto de possíveis efeitos visuais 3D identificados como 402, 403, 404 e 405 são considerados. Para cada efeito visual 3D candidato 402, 403, 404, 405 a imagem de entrada é usada para criar uma representação de imagem 205 que compreende um conjunto de vistas almejadas 203 com base no efeito visual 3D de entrada, como mostrado na Figura 2. O escore de imagem é então computado em 406 para a imagem de entrada usando cada um dos efeitos visuais 3D candidatos 402, 403, 404, 405 e todos os efeitos visuais possíveis são ranqueados em 407 de acordo com seu escore de imagem.
[0052] Preferencialmente, os efeitos visuais 3D candidatos 402, 403, 404, 405 são ranqueados em ordem decrescente, resultando nos possíveis efeitos visuais 3D em 408. Os melhores efeitos visuais 3D candidatos 402, 403, 404, 405 podem ser exibidos a um usuário para seleção em 408. O efeito 3D desejado é então selecionado em 409 pelo usuário para exibir a imagem de entrada como uma foto 3D em 410.
[0053] Alternativamente, o método compreende selecionar 409 o efeito visual 3D candidato 402, 403, 404, 405 com o escore de imagem mais alto e, em seguida, gerar 410 o efeito visual 3D candidato selecionado para a imagem de entrada.
[0054] Além disso, alternativamente, o método compreende estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos 402, 403, 404, 405 são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limite, que exibe 408 para um usuário o efeito visual 3D da imagem de entrada para todos os efeitos visuais 3D candidatos 402, 403, 404, 405 que tem um escore de imagem superior ao valor limiar; selecionar 409, a partir da entrada do usuário, um efeito visual 3D candidato dentre os efeitos visuais 3D candidatos exibidos; e, em seguida, gerar 410 a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.
[0055] Em outra alternativa, o método compreende estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos 402, 403, 404, 405 são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar e, em seguida, gerar 410 todas as animações de efeito visual 3D para os efeitos visuais 3D candidatos adequados 402, 403, 404, 405 para a imagem de entrada.
[0056] Os exemplos de modalidades descritos no presente documento podem ser implementados com o uso de hardware, software ou qualquer combinação dos mesmos e podem ser implementados em um ou mais sistemas de computador ou outros sistemas de processamento. Adicionalmente, uma ou mais das etapas descritas nas modalidades de exemplo no presente documento podem ser implementadas, pelo menos em parte, por máquinas. Exemplos de máquinas que podem ser úteis para realizar as operações das modalidades de exemplo no presente documento, incluem computadores digitais de uso geral, computadores especialmente programados, computadores do tipo desktop, computadores servidor, computadores cliente, computadores portáteis, dispositivos de comunicação móvel, tablets e/ou dispositivos semelhantes.
[0057] Por exemplo, um sistema de exemplo ilustrativo para realizar as operações das modalidades no presente documento pode incluir um ou mais componentes, como um ou mais microprocessadores, para realizar as operações aritméticas e/ou lógicas necessárias para a execução do programa e meios de armazenamento, como um ou mais unidades de disco ou cartões de memória (por exemplo, memória flash) para programa e armazenamento de dados e uma memória de acesso aleatório, para dados temporários e armazenamento de instruções de programa.
[0058] Portanto, o presente também está relacionado a um sistema para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, distinguido por compreender um processador e uma memória que compreende instruções legíveis por computador que, quando executadas pelo processador, fazem com que o processador realize as etapas do método anteriormente descritas nesta descrição.
[0059] O sistema também pode incluir software residente em um meio de armazenamento (por exemplo, uma unidade de disco ou cartão de memória), que, quando executado, direciona o(s) microprocessador(es) na realização de funções de transmissão e recepção. O software pode ser rodado em um sistema operacional armazenado no meio de armazenamento, como, por exemplo, UNIX ou Windows, Linux, Android e semelhantes, e pode aderir a vários protocolos, como Ethernet, Protocolos ATM, TCP/IP e/ou outros protocolos de conexão ou sem conexão.
[0060] Como é bem conhecido na técnica, os microprocessadores podem rodar diferentes sistemas operacionais e podem conter diferentes tipos de software, em que cada tipo é dedicado a uma função diferente, como manipulação e gerenciamento de dados/informações a partir de uma fonte particular ou transformação de dados/informações a partir de um formato para outro formato. As modalidades descritas no presente documento não devem ser interpretadas como sendo limitadas para uso com qualquer tipo particular de computador servidor e qualquer outro tipo adequado de dispositivo para facilitar a troca e armazenamento de informações pode ser empregado em vez disso.
[0061] As modalidades de software das modalidades de exemplo ilustrativas apresentadas no presente documento podem ser fornecidas como um produto de programa de computador, ou software, que pode incluir um artigo de fabricação em um meio legível por computador acessível por máquina ou não transitório (também denominado “meio legível por máquina”) que tem instruções. As instruções na máquina acessível ou meio legível por máquina podem ser usadas para programar um sistema de computador ou outro dispositivo eletrônico. O meio legível por máquina pode incluir, porém, sem limitação, disquetes, discos ópticos, CD-ROMs e discos magneto-ópticos ou outro tipo de mídia/meio legível por máquina adequado para armazenar ou transmitir instruções eletrônicas.
[0062] Portanto, a presente invenção também se refere a um meio de armazenamento legível por computador não transitório para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, que compreende instruções legíveis por computador que, quando realizadas pelo processador, fazem com que o processador realize as etapas do método descritas anteriormente nesta descrição.
[0063] As técnicas descritas no presente documento não se limitam a qualquer configuração de software particular. Eles podem ser aplicáveis em qualquer ambiente de computação ou processamento. Os termos “meio acessível por máquina”, “meio legível por máquina” e “meio legível por computador” usados no presente documento devem incluir qualquer meio não transitório que seja capaz de armazenar, codificar ou transmitir uma sequência de instruções para execução pela máquina (por exemplo, uma CPU ou outro tipo de dispositivo de processamento) e que fazem com que a máquina realize qualquer um dos métodos descritos no presente documento. Além disso, é comum na técnica falar de software, de uma forma ou de outra (por exemplo, programa, procedimento, processo, aplicação, módulo, unidade, lógica e assim por diante) como que realizar uma ação ou causar um resultado. Essas expressões são meramente uma forma abreviada de afirmar que a execução do software por um sistema de processamento faz com que o processador realize uma ação para produzir um resultado.
RESULTADOS
[0064] O método apresentado nesta invenção foi avaliado experimentalmente para seleção e ranqueamento de imagens de acordo com o escore de imagem proposto. Avaliamos o escore de imagem com resultados quantitativos no conjunto de dados RealEstate10K para síntese de novas vistas e com resultados qualitativos em um conjunto de 3.000 mil imagens públicas da Internet. Também avaliamos o tempo computacional necessário para gerar o escore de imagem a partir de uma representação MPI.
[0065] Na avaliação qualitativa, consideramos as seguintes métricas de imagem: Índice de Similaridade Estrutural (SSIM), Relação Sinal-Ruído de Pico (PSNR) e Similaridade Perceptual Aprendida sobre Partes de Imagens (LPIPS). Para isso, consideramos um conjunto de 1.500 imagens do conjunto de dados RealEstate10K com imagens originais e almejadas emparelhadas para diferentes pontos de vista. Usamos um método recente da literatura [4] para gerar uma representação MPI a partir de uma única imagem.
[0066] Os resultados são mostrados nas Figuras 5, Figura 6 e Figura 7. Especificamente, a Figura 5 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica LPIPS (quanto menor, melhor), para diferentes valores do limiar p (rho), a Figura 6 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica PSNR (quanto maior, melhor), para diferentes valores de p (rho) e a Figura 7 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica SSIM (quanto maior, melhor), para diferentes valores de p (rho).
[0067] A partir das distribuições apresentadas, há uma correlação clara entre o escore de imagem proposto (eixo x) e a qualidade da imagem para todas as três métricas. Em particular, a métrica mais importante para efeito visual, o LPIPS, mostra uma forte correlação para p = 0.6, como pode ser visto na Figura 5, parte inferior esquerda.
[0068] Além dos resultados que consideram as distribuições métricas, também avaliamos as métricas no RealEstate10K que consideram os percentis do escore de imagem proposto, conforme apresentado na Tabela 1. A partir desses resultados, podemos observar uma melhoria consistente e significativa ao se usar escore de imagem proposto, por exemplo, aumentando de 0,697 para 0,843 nas métricas SSIM, considerando o primeiro e o último percentis. Uma melhoria semelhante é observada em todas as métricas, o que indica que o escore de imagem proposto é eficaz para selecionar boas imagens para síntese de novas vistas.
Figure img0003
[0069] A fim de mostrar a capacidade do método de generalizar para uma ampla gama de diferentes tipos de imagens, também avaliamos o escore de imagens proposto em imagens obtidas da Internet. Na Figura 8, mostramos o histograma resultante do escore de imagens proposto para um conjunto de 3.000 imagens da internet, com diferentes valores de p (rho), o que indica que o método é capaz de atribuir diferentes escores a diferentes imagens.
[0070] Resultados qualitativos são mostrados na Figura 9, na qual diferentes imagens com variados tipos de conteúdo são mostradas com seus respectivos escores de imagem computados pelo método proposto pela presente invenção. Cada imagem é apresentada com sua respectiva nova vista sintetizada por um método da literatura com base na representação MPI (conforme mostrado, por exemplo, na Figura 1), em que as imagens da esquerda são as figurações originais e as da direita são as novas vistas geradas. Quanto menor for o escore de imagem, mais desafiador será sintetizar uma nova vista natural e visualmente plausível.
[0071] Finalmente, também avaliamos a presente invenção em termos de tempo computacional. Para isso, medimos o tempo necessário para computar o escore de imagem para uma dada representação MPI. Implementamos o método com o uso de C++ e a biblioteca aberta de visão computacional (OpenCV) e executamos o método em um processador Intel(R) Xeon(R) CPU E5-2670 @ 2.60GHz. Computamos representações MPI para 200 imagens diferentes com camadas alfa com resolução de 384 x 288 pixels e 32 camadas de imagem por amostra. Também avaliamos diferentes efeitos visuais 3D e o tempo de computação exigido por nosso método é, em média, 30 milissegundos por quadro de imagem, o que permite aplicações em tempo real.
[0072] Portanto, a presente invenção soluciona o problema técnico de auxiliar o processo de geração de um bom efeito visual 3D a partir de uma imagem. A presente invenção não é óbvia pelas seguintes razões: o problema que esta invenção pretende solucionar é ranquear imagens para um dado efeito visual 3D, que não tem trabalho anterior disponível publicamente.
[0073] Embora a classificação geral de imagens seja um problema comum na literatura, trabalhos anteriores são dedicados a classificar os tipos de imagens ou identificar o conteúdo das imagens. O ranqueamento de imagens também já foi explorado na literatura, mas o objetivo de trabalhos anteriores é ranquear imagens a partir de uma dada consulta, que pode ser outra imagem, uma descrição textual, sinais de áudio ou combinações diversas destes. No caso da presente invenção, o objetivo é ranquear um conjunto de imagens considerando um dado efeito visual 3D, e isto não possui trabalhos anteriores na literatura. É importante destacar que algoritmos clássicos de ranqueamento de imagens falharão na presente tarefa, visto que, para a síntese de novas vistas, o que é mais relevante é a estrutura da cena e não o tipo da imagem, considerando apenas seu conteúdo visual.
[0074] A presente invenção fornece um novo recurso relacionado à síntese de novas vistas a partir de uma única imagem. Este novo recurso não pode ser alcançado com nenhuma combinação de métodos anteriores de forma óbvia, visto que os problemas de selecionar uma boa imagem para gerar um efeito visual 3D ou mesmo selecionar um bom efeito visual 3D para uma dada imagem ainda não foram considerados em trabalhos anteriores.
[0075] Embora vários exemplos de modalidades e uso da técnica tenham sido descritos acima, deve ser entendido que elas foram apresentadas a título de exemplo, e não como limitação. Será evidente para as pessoas versadas na(s) técnica(s) relevante(s) que várias alterações na forma e nos detalhes podem ser feitas no mesmo.
REFERÊNCIAS
[0076] A seguinte referência pode ser útil para entender os conceitos e ensinamentos da presente invenção e são incorporados ao presente documento à título de referência.
[0077] [1] Tucker e Snavely, “Single-View View Synthesis with Multiplane Images”, in CVPR 2020.
[0078] [2] Zhou et al., “Stereo Magnification: Learning view synthesis using multiplane images”, in SIGGRAPH 2018.
[0079] [3] Kopf et al., “One Shot 3D Photography”, in SIGGRAPH 2020.
[0080] [4] Luvizon et al., “Adaptive Multiplane Image Generation from a Single Internet Picture”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2021.

Claims (21)

  1. Método implementado por computador para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D,
    em que a imagem de entrada (201) de tamanho de H x W é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada
    sendo que o método é caracterizado pelo fato de que
    compreende computar (207) um escore de imagem St (208) para o conjunto de vistas almejadas (203) com base no número de pixels não ocluídos no conjunto de vistas almejadas (203);
    em que o escore de imagem indica a adequação da imagem de entrada (201) para a síntese de novas vistas em um efeito visual 3D.
  2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que
    a representação da imagem é uma representação de imagem de múltiplos planos (MPI) definida por um conjunto de camadas planas de imagem D como em (205), em que cada camada é codificada como uma imagem RGB-alfa à distância d,-em relação ao ponto de vista (206), definido por:
    {(ci,αi)}Di=1=fθ(I)
    em que Ci e αi correspondem aos valores de cor e alfa da i-ésima camada de imagem, fϴ representa um método genérico (204) que produz uma MPI a partir da imagem de entrada (201) I.
  3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que
    a representação de imagem (304) é criada a partir da imagem de entrada (201) e de um mapa de profundidade de entrada (202).
  4. Método de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que
    a representação MPI (104) é renderizada para um ponto de vista de origem (105) e para novos pontos de vista (106) com base em operações de deformação e composição.
  5. Método de acordo com a reivindicação 4, caracterizado pelo fato de que
    o conjunto de vistas almejadas (203) é definido por V = v1,v2, ... , vt , em que t é o número de vistas almejadas consideradas;
    em que a operação de deformação é definida por uma função de deformação com base na profundidade de cada plano de imagem aplicado individualmente para os canais de cor e alfa, como definido por:
    c'i = Wvs,vt(di,ci),
    α'i = Wvs,vt(di,αi),
    em que c1i e a1i correspondem aos valores de cor e alfa da i-ésima camada da imagem após a deformação a partir do ponto de vista de origem vs para o ponto de vista alvo vt, e W é uma função de deformação genérica, com base na homografia plana para representação MPI.
  6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que, após a deformação para a vista almejada, a representação MPI resultante é renderizada pela operação sobrecompósita, definida por:
    It = ΣDi=1(c'iα'iπDj=i+1(1 -α'j)),
    em que It é a nova vista almejada renderizada.
  7. Método de acordo com a reivindicação 5 ou 6, caracterizado pelo fato de que
    o escore de imagem é computado com base na operação sobrecompósita das camadas alfa deformadas, definidas por:
    Mt = ΣDi=1(α'iπDj=i+1(1 -α'j)),
    em que Mt é o alfa compósito que representa os valores de pixels não ocluídos.
  8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que
    a etapa de computar (207) um escore de imagem st (208) compreende contar o número de pixels não ocluídos nas vistas almejadas da imagem de entrada.
  9. Método de acordo com a reivindicação 7 ou 8, caracterizado pelo fato de que
    a etapa de computar (207) um escore de imagem st (208) compreende calcular uma métrica para não desoclusão pela seguinte equação:
    Figure img0004
    em que p é o limiar alfa para decidir se um valor alfa é ou não considerado como pixel ocluído ou não ocluído, em que é um valor normalizado entre [0, 1] .
  10. Método de acordo com a reivindicação 9, caracterizado pelo fato de que o escore de imagem (208) é calculado por:
    Figure img0005
    em que V é o conjunto de vistas almejadas (203); Sté a métrica para não desoclusão.
  11. Método de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que compreende adicionalmente a etapa de
    estabelecer um valor limiar para o escore de imagem, em que a dada imagem de entrada é adequada para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar.
  12. Método de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que a imagem de entrada (201) compreende uma pluralidade de imagens de entrada (301), em que
    a etapa de computar (207) um escore de imagem (208) compreende computar escores de imagem (302) para a pluralidade de imagens de entrada (301);
    sendo que o método compreende adicionalmente:
    ranquear (304) a pluralidade de imagens de entrada (301) com base em seus escores de imagem (302).
  13. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente:
    selecionar (305) pelo menos uma melhor imagem com base no ranqueamento da pluralidade de imagens de entrada (301);
    gerar (306) uma animação de efeito visual 3D para as imagens selecionadas.
  14. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente:
    estabelecer um valor limiar para o escore de imagem, em que as imagens de entrada são adequadas para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar;
    gerar (306) uma animação de efeito visual 3D para todas as imagens de entrada com um escore de imagem superior ao valor limiar.
  15. Método de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que
    para uma imagem de entrada, há uma pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405), em que, para cada efeito visual 3D candidato (402, 403, 404, 405), a imagem de entrada é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada;
    em que a etapa de computar (207) um escore de imagem (208) compreende computar escores de imagem (406) para a imagem de entrada que usa cada um dos efeitos visuais 3D candidatos (402, 403, 404, 405);
    ranquear (407) a pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405) com base em seus escores de imagem (406).
  16. Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
    selecionar (409) o efeito visual 3D candidato (402, 403, 404, 405) com o escore de imagem mais alto;
    gerar (410) o efeito visual 3D candidato selecionado para a imagem de entrada.
  17. Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
    exibir (408) para um usuário o pelo menos um melhor efeito visual 3D candidato com base no ranqueamento da pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405);
    selecionar (409), a partir da entrada do usuário, um efeito visual 3D candidato entre o efeito visual 3D candidato exibido;
    gerar (410) a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.
  18. Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
    estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos (402, 403, 404, 405) são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar;
    exibir (408) para um usuário o efeito visual 3D da imagem de entrada para todos os efeitos visuais 3D candidatos (402, 403, 404, 405) que tem um escore de imagem superior ao valor limiar;
    selecionar (409), a partir da entrada do usuário, um efeito visual 3D candidato entre o efeito visual 3D candidato exibido;
    gerar (410) a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.
  19. Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
    estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos (402, 403, 404, 405) são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar;
    gerar (410) as animações de efeito visual 3D para todos os efeitos visuais 3D candidatos adequados (402, 403, 404, 405) para a imagem de entrada.
  20. Sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D, caracterizado pelo fato de que compreende
    um processador;
    uma memória que compreende instruções legíveis por computador que, quando executadas pelo processador, fazem com que o processador realize o método como definido em qualquer uma das reivindicações 1 a 19.
  21. Meio de armazenamento legível por computador não transitório, caracterizado pelo fato de que compreende instruções legíveis por computador que, quando executadas por um processador, fazem com que o processador realize o método como definido em qualquer uma das reivindicações 1 a 19.
BR102021025992-2A 2021-12-21 2021-12-21 Método implementado por computador e sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3d, e, meio de armazenamento legível por computador não transitório BR102021025992A2 (pt)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/673,351 US12051150B2 (en) 2021-12-21 2022-02-16 Computer implemented method and system for classifying an input image for new view synthesis in a 3D visual effect, and non-transitory computer readable storage medium

Publications (1)

Publication Number Publication Date
BR102021025992A2 true BR102021025992A2 (pt) 2023-07-04

Family

ID=

Similar Documents

Publication Publication Date Title
Attal et al. MatryODShka: Real-time 6DoF video view synthesis using multi-sphere images
US11017586B2 (en) 3D motion effect from a 2D image
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
Patwardhan et al. Video inpainting under constrained camera motion
WO2019101113A1 (zh) 一种图像融合方法及其设备、存储介质、终端
WO2022078041A1 (zh) 遮挡检测模型的训练方法及人脸图像的美化处理方法
CN113628327B (zh) 一种头部三维重建方法及设备
CA3018749C (en) Arbitrary view generation
EP3991140A1 (en) Portrait editing and synthesis
CN112233165B (zh) 一种基于多平面图像学习视角合成的基线扩展实现方法
US11451758B1 (en) Systems, methods, and media for colorizing grayscale images
CN104735435A (zh) 影像处理方法及电子装置
CN115239861A (zh) 人脸数据增强方法、装置、计算机设备和存储介质
BR102020027013A2 (pt) Método para gerar uma imagem multiplano adaptativa a partir de uma única imagem de alta resolução
CA3173542A1 (en) Techniques for re-aging faces in images and video frames
WO2014170757A2 (en) 3d rendering for training computer vision recognition
Ma et al. Neural compositing for real-time augmented reality rendering in low-frequency lighting environments
Takai et al. Harmonised texture mapping
Nicolet et al. Repurposing a relighting network for realistic compositions of captured scenes
BR102021025992A2 (pt) Método implementado por computador e sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3d, e, meio de armazenamento legível por computador não transitório
CN115393471A (zh) 图像处理方法、装置及电子设备
US12051150B2 (en) Computer implemented method and system for classifying an input image for new view synthesis in a 3D visual effect, and non-transitory computer readable storage medium
WO2022231582A1 (en) Photo relighting and background replacement based on machine learning models
US20230196659A1 (en) Computer implemented method and system for classifying an input image for new view synthesis in a 3d visual effect, and non-transitory computer readable storage medium
JP6814036B2 (ja) 要素画像群生成装置及びそのプログラム