ES2908230T3 - Procedimiento de reconstrucción tridimensional - Google Patents

Procedimiento de reconstrucción tridimensional Download PDF

Info

Publication number
ES2908230T3
ES2908230T3 ES17785812T ES17785812T ES2908230T3 ES 2908230 T3 ES2908230 T3 ES 2908230T3 ES 17785812 T ES17785812 T ES 17785812T ES 17785812 T ES17785812 T ES 17785812T ES 2908230 T3 ES2908230 T3 ES 2908230T3
Authority
ES
Spain
Prior art keywords
frames
frame
dimensional
captured
capture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17785812T
Other languages
English (en)
Other versions
ES2908230T9 (es
Inventor
Toru Matsunobu
Toshiyasu Sugio
Satoshi Yoshikawa
Tatsuya Koyama
Pongsak Lasang
Jian Gao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Application granted granted Critical
Publication of ES2908230T3 publication Critical patent/ES2908230T3/es
Publication of ES2908230T9 publication Critical patent/ES2908230T9/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20088Trinocular vision calculations; trifocal tensor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30228Playing field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

Un procedimiento de reconstrucción tridimensional de reconstrucción de un modelo tridimensional a partir de imágenes multivista capturadas por una pluralidad de cámaras (100) con diferentes puntos de vista, comprendiendo el procedimiento: seleccionar (S2300) dos fotogramas de las imágenes multivista; calcular un tiempo de captura de cada uno de los dos fotogramas; seleccionar un procedimiento de cálculo de puntos clave correspondientes en los dos fotogramas; y calcular (S3100, S3200) los puntos clave correspondientes usando el procedimiento de cálculo de puntos clave correspondientes seleccionados en la selección del procedimiento de cálculo de puntos clave correspondientes; caracterizado por siendo el procedimiento de cálculo de los puntos clave correspondientes seleccionado de acuerdo con los tiempos de captura, en el que los puntos clave correspondientes se calculan usando diferentes procedimientos dependiendo de si los tiempos de captura son los mismos, en el que, cuando los dos fotogramas tienen el mismo tiempo de captura, se calculan los puntos clave correspondientes en regiones enteras de los dos fotogramas (S3130), y cuando los dos fotogramas no tienen el mismo tiempo de captura, cada uno de los dos fotogramas se divide (S3140) en una pluralidad de regiones, teniendo cada una un vector de movimiento, se identifican regiones que tienen el mismo vector de movimiento, con una magnitud más pequeña que un valor umbral, en los dos fotogramas, y se calculan (S3140) los puntos clave correspondientes únicamente en las regiones identificadas, usando vectores de característica de los puntos clave; y reconstruir (S3150) el modelo tridimensional a base de los puntos clave correspondientes calculados.

Description

DESCRIPCIÓN
Procedimiento de reconstrucción tridimensional
Campo técnico
La presente invención se refiere a un procedimiento de reconstrucción tridimensional y en particular a un procedimiento de reconstrucción tridimensional para la reconstrucción de un modelo tridimensional de un sujeto usando una pluralidad de imágenes en movimiento capturadas por una pluralidad de dispositivos de formación de imágenes. Antecedentes de la técnica
La técnica de reconstrucción tridimensional en el campo de la visión informática hace correspondencia entre una pluralidad de imágenes bidimensionales para estimar la posición y orientación de cámaras y una posición tridimensional del sujeto.
Por ejemplo, de acuerdo con la Referencia de patente (PTL) 1, se extraen puntos clave de varios fotogramas iniciales de una imagen en movimiento introducida desde una cámara monocular y se hace correspondencia entre posiciones de punto clave mediante la correlación de fotogramas. En fotogramas posteriores, la información de posición de punto clave se obtiene mediante seguimiento de punto clave de serie temporal usando un filtro de Kalman extendido. Un modelo tridimensional se reconstruye a base de Estructura desde el Movimiento (SfM) usando puntos clave correspondientes.
Además, en PTL 2, se reconstruye un modelo tridimensional realizando correlación de puntos clave en fotogramas clave obtenidos en un ciclo predeterminado a partir de dos imágenes en movimiento capturadas de forma síncrona por una cámara estéreo. Además, también puede reconstruirse un modelo tridimensional para fotogramas entre los fotogramas clave usando un cambio en un punto clave en la dirección temporal.
Adicionalmente, en PTL 3, se realiza una calibración entre tres o más cámaras, y cada sistema de coordenadas de cámara se convierte a un sistema de coordenadas de cámara virtual de un punto de vista arbitrario de acuerdo con parámetros de cámara obtenidos. En el sistema de coordenadas de cámara virtual, se estima una información de distancia haciendo correspondencia a través de correlación de bloques entre imágenes después de la conversión de coordenadas. Una imagen de un punto de vista de cámara virtual se sintetiza a base de la información de distancia estimada.
Lista de citas
Referencia de patentes
PTL 1: Publicación de Solicitud de Patente no Examinada Japonesa N.° 2009-237845
PTL 2: Publicación de Solicitud de Patente no Examinada Japonesa N.° 2012-160937
PTL 3: Publicación de Solicitud de Patente no Examinada Japonesa N.° 2010-250452
El documento EP 1670237 A2 se refiere a un procedimiento de correlación de datos de imagen no sincronizados, en el que pueden descartarse porciones de imagen con un movimiento detectado y puede realizarse correlación de puntos clave usando las porciones restantes.
Sin embargo, con las técnicas convencionales anteriormente descritas, es difícil reconstruir apropiadamente, independientemente del movimiento del sujeto, modelos tridimensionales de serie temporal a partir de imágenes en movimiento capturadas, usando una pluralidad de cámaras fijas o no fijas o tanto cámaras fijas como no fijas.
Es decir, cuando el sujeto se está moviendo en el entorno de captura de imagen, hacer la correspondencia entre imágenes bidimensionales es difícil con imágenes de serie temporal capturadas por la cámara monocular como se desvela en PTL 1. Además, dado que PTL 3 realiza captura síncrona únicamente en el momento de calibración, es difícil, como en PTL 1, estimar de forma precisa posiciones tridimensionales de un sujeto en movimiento. Adicionalmente, dado que PTL 2 usa una cámara estéreo que tiene dos cámaras con una relación posicional fija, las posiciones de cámara están restringidas.
La invención resuelve los problemas anteriormente descritos por las características de las reivindicaciones independientes. Las reivindicaciones dependientes describen realizaciones ventajosas.
Con el procedimiento de reconstrucción tridimensional de acuerdo con la presente divulgación, es posible reconstruir apropiadamente, independientemente del movimiento del sujeto, modelos tridimensionales de serie temporal a partir de imágenes en movimiento capturadas, usando una pluralidad de cámaras fijas o no fijas o tanto cámaras fijas como no fijas.
Breve descripción de los dibujos
La Figura 1 ilustra una configuración global de un sistema de reconstrucción tridimensional de acuerdo con la presente divulgación.
La Figura 2 ilustra un ejemplo de vídeos obtenidos mediante captura síncrona y vídeos obtenidos mediante captura asíncrona.
La Figura 3 ilustra un flujo de procesamiento de un dispositivo de reconstrucción tridimensional de acuerdo con la presente divulgación.
La Figura 4 ilustra un ejemplo de conjuntos de fotogramas multivista que hay que introducir a un reconstructor tridimensional de acuerdo con la presente divulgación.
La Figura 5 ilustra una configuración del reconstructor tridimensional de acuerdo con la realización 1.
La Figura 6 ilustra un ejemplo de reconstrucción tridimensional usando tres fotogramas multivista de acuerdo con la realización 1.
La Figura 7 ilustra un flujo de procesamiento del reconstructor tridimensional de acuerdo con la realización 1. La Figura 8 ilustra un ejemplo de una configuración del correspondedor 315 de acuerdo con la realización 1. La Figura 9 ilustra un flujo de procesamiento de cálculo de puntos clave correspondientes de acuerdo con la realización 1.
Descripción de realización ilustrativa
Primero, se definirá la reconstrucción tridimensional de acuerdo con la presente divulgación. Vídeos obtenidos capturando un sujeto en el espacio real usando una pluralidad de cámaras con diferentes puntos de vista se denominan vídeos multivista, y la reconstrucción del sujeto en un espacio tridimensional usando las imágenes bidimensionales multivista se denomina como reconstrucción tridimensional. El sujeto reconstruido en un espacio tridimensional se denomina como un modelo tridimensional. En este momento, el parámetro de cada cámara puede obtenerse por adelantado o puede estimarse al mismo tiempo que cuando se crea el modelo tridimensional. En la presente realización, el parámetro de cámara se estima al mismo tiempo que cuando se crea el modelo tridimensional.
Obsérvese que los parámetros de cámara incluyen al menos uno de parámetros internos tales como la longitud focal de la cámara, el coeficiente de distorsión de la lente y el centro de imagen, y parámetros externos tales como la posición tridimensional y orientación de la cámara.
Obsérvese que el modelo tridimensional del sujeto incluye las respectivas posiciones tridimensionales de una pluralidad de puntos en el sujeto en imágenes bidimensionales multivista. Cada una de las posiciones tridimensionales se representa por información de tres valores que incluye el componente X, el componente Y, y el componente Z de un espacio de coordenadas tridimensional definido por los ejes X, Y y Z, por ejemplo. Obsérvese que el modelo tridimensional puede incluir no únicamente las posiciones tridimensionales, sino también información que representa el matiz de cada punto y la forma de superficie de cada punto y sus alrededores.
A continuación, se definirá la captura síncrona de acuerdo con la presente divulgación. En la Figura 2 se ilustran ejemplos de ciclos de captura y periodos de exposición de cámaras. En la Figura 2, el eje horizontal representa tiempo, y un periodo de tiempo para el que una señal rectangular es alta representa un periodo de tiempo durante el cual se expone la cámara. Cuando se obtiene una imagen usando una cámara, el periodo de tiempo durante el cual se abre el obturador se denomina como un periodo de exposición. Una escena expuesta al sensor de imagen a través de una lente durante el periodo de exposición se obtiene como una imagen. En (a) en la Figura 2, fotogramas capturados por dos cámaras que tienen diferentes vistas tienen periodos de exposición que se solapan entre sí. Por lo tanto, los fotogramas obtenidos por las dos cámaras son fotogramas síncronos, que incluyen una escena del mismo punto de tiempo. En contraste, en (b) en la Figura 2, dado que los periodos de exposición de fotogramas obtenidos por las dos cámaras no se solapan entre sí, los fotogramas obtenidos por las dos cámaras son fotogramas asíncronos, que no incluyen una escena del mismo punto de tiempo. La captura de fotogramas síncronos con una pluralidad de cámaras como en (a) en la Figura 2 se denomina como captura síncrona.
A continuación, se describirá la configuración general de un sistema de reconstrucción tridimensional de acuerdo con la presente realización. La Figura 1 ilustra una configuración del sistema de reconstrucción tridimensional de acuerdo con la presente realización.
El sistema de reconstrucción tridimensional de acuerdo con la presente realización incluye un sujeto, cámaras y dispositivo 200 de reconstrucción tridimensional que recibe imágenes multivista y realiza procesamiento de imágenes. El sujeto es, por ejemplo, una escena de un partido de baloncesto. N cámaras 1001 a 100-n capturan vídeos del sujeto en diferentes puntos de vista y transmiten los vídeos multivista capturados al dispositivo 200 de reconstrucción tridimensional.
Obsérvese que los vídeos multivista capturados por las cámaras 1001 a 100-n plurales pueden transmitirse al dispositivo 200 de reconstrucción tridimensional a través de o bien una red de comunicación pública tal como la Internet o bien una red de comunicación especializada. Como alternativa, los vídeos multivista pueden almacenarse temporalmente directamente desde las cámaras en un dispositivo de almacenamiento externo tal como una unidad de disco duro (HDD) o una unidad de estado sólido (SSD) e introducirse directamente en el dispositivo 200 de reconstrucción tridimensional cuando sea necesario. Como alternativa, los vídeos multivista pueden transmitirse temporalmente a y almacenarse en un dispositivo de almacenamiento externo tal como un servidor en la nube a través de una red, y transmitirse al dispositivo 200 de reconstrucción tridimensional cuando sea necesario.
Obsérvese que la información de especificación de cámara, tal como un ID de cámara que especifica una cámara que ha realizado la captura de imagen, puede añadirse a los vídeos multivista como la información de encabezamiento de vídeos o fotogramas.
Obsérvese que puede realizarse captura síncrona, que es capturar un sujeto en el mismo punto de tiempo en cada fotograma usando una pluralidad de cámaras. Como alternativa, únicamente los relojes integrados de una pluralidad de cámaras pueden sincronizarse, y la información de tiempo de captura puede añadirse a cada vídeo o fotograma sin realizar captura síncrona, o puede añadirse un número de índice que indica el número en el orden de captura, que es un orden en el que se capturan fotogramas.
Obsérvese que puede añadirse información que indica si se ha realizado captura síncrona o se ha realizado captura asíncrona, como información de encabezamiento, al conjunto de vídeos, a cada imagen o a cada fotograma del vídeo multivista.
El dispositivo 200 de reconstrucción tridimensional incluye un receptor 210, un almacenamiento 220, un obtenedor 230, un reconstructor 240 tridimensional y un transmisor 250.
El receptor 210 recibe los vídeos multivista capturados por la pluralidad de cámaras a través de una red o directamente del dispositivo de almacenamiento externo, e introduce los vídeos multivista en el almacenamiento 220.
El almacenamiento 220 almacena los vídeos multivista recibidos por el receptor 210.
El obtenedor 230 obtiene los vídeos multivista del almacenamiento 220, divide los vídeos en fotogramas, e introduce un conjunto de fotogramas multivista que incluye una pluralidad de fotogramas en el reconstructor 240 tridimensional.
Obsérvese que el conjunto de fotogramas multivista puede incluir: una pluralidad de fotogramas obtenidos seleccionando un fotograma de cada uno de todos los vídeos; una pluralidad de fotogramas obtenidos seleccionando al menos un fotograma de todos los vídeos; una pluralidad de fotogramas obtenidos seleccionando un fotograma de cada uno de dos o más vídeos seleccionados de entre los vídeos multivista; o una pluralidad de fotogramas obtenidos seleccionando al menos un fotograma de cada uno de dos o más vídeos seleccionados de entre los vídeos multivista.
Obsérvese que cuando la información de especificación de cámara no se añade a cada fotograma del conjunto de fotogramas multivista, puede añadirse individualmente a la información de encabezamiento de cada fotograma, o puede añadirse colectivamente a la información de encabezamiento del conjunto de fotogramas multivista.
Cuando el número de índice que indica el tiempo de captura u orden de captura no se añade a cada fotograma del conjunto de fotogramas multivista, puede añadirse individualmente a la información de encabezamiento de cada fotograma, o puede añadirse colectivamente a la información de encabezamiento del conjunto de fotogramas.
Usando el conjunto de fotogramas multivista introducido desde el obtenedor 230, el reconstructor 240 tridimensional estima parámetros de cámara de las cámaras que han capturado los fotogramas incluidos en el conjunto de fotogramas multivista, y reconstruye un modelo tridimensional del sujeto incluido en cada fotograma.
El transmisor 250 transmite los parámetros de cámara o el modelo tridimensional, o ambos, calculados por el reconstructor 240 tridimensional a, por ejemplo, un dispositivo de almacenamiento o un dispositivo de procesamiento fuera del dispositivo 200 de reconstrucción tridimensional.
La Figura 3 es un flujo de procesamiento del dispositivo 200 de reconstrucción tridimensional del sistema de reconstrucción tridimensional de acuerdo con la presente realización.
Primero, el receptor 210 recibe los vídeos multivista capturados por una pluralidad de cámaras, e introduce los vídeos multivista en el almacenamiento 220 (S2100).
A continuación, el almacenamiento 220 almacena los vídeos multivista (S2200).
A continuación, el obtenedor 230 obtiene los vídeos multivista del almacenamiento 220, divide los vídeos en fotogramas, crea un conjunto de fotogramas multivista que incluye una pluralidad de fotogramas, e introduce el conjunto de fotogramas multivista en el reconstructor 240 tridimensional (S2300).
Obsérvese que el obtenedor 230 puede obtener inmediatamente los vídeos multivista del receptor 210, en lugar de del almacenamiento 220.
A continuación, usando el conjunto de fotogramas multivista, el reconstructor 240 tridimensional estima parámetros de cámara de las cámaras que han capturado los fotogramas, y reconstruye un modelo tridimensional del sujeto incluido en cada fotograma (S2400).
S2300 y S2400 se repiten hasta que no haya más conjuntos de fotogramas multivista creados por el obtenedor 230 o hasta que un usuario ordene parar.
A continuación, el transmisor 250 transmite los parámetros de cámara, el modelo tridimensional del sujeto, o ambos, al exterior (S2500).
A continuación, en el presente documento, se describirá una realización en detalle con los dibujos adjuntos. Obsérvese que la realización descrita a continuación ilustra un ejemplo general o específico. Los valores numéricos, formas, materiales, elementos estructurales, la disposición y conexión de los elementos estructurales, etc., ilustrados en la realización a continuación son meros ejemplos, y no pretenden limitar la presente divulgación. Adicionalmente, entre los elementos estructurales en la realización a continuación, elementos estructurales no citados en ninguna de las reivindicaciones independientes que representan los conceptos más genéricos se describirán como elementos estructurales opcionales.
(REALIZACIÓN 1)
Primero, en la presente realización, se describirá un conjunto de fotogramas multivista que hay que introducir en el reconstructor 240 tridimensional. La Figura 4 ilustra un ejemplo en el que se selecciona un fotograma de cada una de cinco cámaras multivista para constituir un conjunto de fotogramas.
En este punto, se supone que las cámaras multivista realizan captura síncrona, y un ID (100-1 a 100-5) de cámara se añade a la información de encabezamiento de cada fotograma para identificar la cámara que ha capturado el fotograma. También se añaden los números de fotograma 001 a N que indican los números en un orden de captura en el que se capturan fotogramas por una cámara, y cuando los fotogramas tienen el mismo número de fotograma entre diferentes cámaras, significa que tales fotogramas se capturaron para disparar al objetivo en el mismo punto de tiempo.
El obtenedor 230 introduce secuencialmente los conjuntos 200-1 a 200-n de fotogramas en el reconstructor 240 tridimensional, y el reconstructor 240 tridimensional realiza secuencialmente una reconstrucción tridimensional mediante un procesamiento repetitivo, usando los conjuntos 200-1 a 200-n de fotogramas.
El conjunto 200-1 de fotogramas incluye cinco fotogramas: un fotograma que tiene número de fotograma 001 de la cámara 100-1, un fotograma que tiene número de fotograma 001 de la cámara 100-2, un fotograma que tiene número de fotograma 001 de la cámara 100-3, un fotograma que tiene número de fotograma 001 de la cámara 100-4 y un fotograma que tiene número de fotograma 001 de la cámara 100-5. Usando el conjunto 200-1 de fotogramas como el grupo inicial de fotogramas de los vídeos multivista en el procesamiento repetitivo 1 del reconstructor 240 tridimensional, es posible reconstruir tridimensionalmente el estado inicial del entorno de captura de imagen. El conjunto 200-2 de fotogramas es un conjunto de fotogramas en el que únicamente el fotograma de la cámara 100-1 en el conjunto 200-1 de fotogramas se actualiza a un fotograma que tiene número de fotograma 002, que se ha capturado en el siguiente punto de tiempo. Usando el conjunto 200-2 de fotogramas en el procesamiento repetitivo 2, se reconstruye un modelo tridimensional que incluye tanto el momento en el que se han capturado los fotogramas que tienen el número de fotograma 001 y el momento en el que se ha capturado el fotograma que tiene el número de fotograma 002. Posteriormente, en cada uno de los procesamientos repetitivos 3 a 5 se actualiza de la misma manera un fotograma de una cámara. A continuación, en el conjunto 200-6 de fotogramas, los fotogramas de todas las cámaras en el conjunto 200-1 de fotogramas se actualizan a fotogramas capturados en el siguiente punto de tiempo. Es decir, para reconstruir un modelo tridimensional que está antes por un punto de tiempo, la unidad 240 de reconstrucción tridimensional realiza el procesamiento repetitivo cinco veces. Actualizando secuencialmente los números de fotograma en el conjunto de fotogramas de tal manera como se ha descrito, es posible reconstruir modelos tridimensionales de serie temporal que son diferentes en el punto de tiempo, pero tienen los mismos ejes de coordenadas.
Obsérvese que, incluso sin captura síncrona, el obtenedor 230 puede crear un conjunto de fotogramas, usando los vídeos multivista obtenidos. En ese caso, el tiempo de captura se proporciona a cada fotograma, y el obtenedor 230 crea conjuntos de fotogramas que combinan fotogramas síncronos y fotogramas asíncronos a base de los tiempos de captura. Lo siguiente describe un procedimiento de determinación de fotogramas síncronos y fotogramas asíncronos usando tiempos de captura de dos cámaras.
Supóngase que el tiempo de captura de un fotograma seleccionado de entre los fotogramas capturados por la cámara 100-1 es T1, el tiempo de captura de un fotograma seleccionado de entre los fotogramas capturados por la cámara 100-2 es T2, el periodo de exposición de la cámara 100-1 es Te-i, y el periodo de exposición de la cámara 100-2 es Te2. En este punto, cada uno de los tiempos de captura T1 y T2 indican un punto de tiempo en el que se ha iniciado la exposición en el ejemplo de la Figura 2, es decir, el tiempo de subida de la señal rectangular. Por lo tanto, el tiempo de finalización de exposición de la cámara 100-1 es T1 Tei. En este momento, si se satisface la Expresión (1) o la Expresión (2), significa que las dos cámaras están capturando el sujeto en el mismo punto de tiempo, y se dice, por lo tanto, que los dos fotogramas son fotogramas síncronos.
[FÓRMULA MATEMÁTICA 1]
Ti < T2< Ti Tei (1)
[FÓRMULA MATEMÁTICA 2]
Ti < T2 Te2 < Ti Tei Expresión (2)
La Figura 5 es un diagrama de bloques que ilustra una configuración del reconstructor 240 tridimensional de acuerdo con la presente divulgación.
El reconstructor 240 tridimensional estima un parámetro de cámara y reconstruye un modelo tridimensional usando un conjunto de fotogramas multivista introducido desde el obtenedor 230 del dispositivo 200 de reconstrucción tridimensional ilustrado en la Figura 1. Como se ilustra en la Figura 5, el reconstructor 240 tridimensional incluye un detector 310, un extractor 311, un controlador 312, un conmutador 313, un correspondedor 314, un correspondedor 315, un selector 316, un estimador 317, un restaurador 318 y un optimizador 319.
El detector 310 detecta un punto clave en cada fotograma del conjunto de fotogramas multivista recibido. Un punto clave es: un punto o un borde, tal como un contorno de un objeto incluido en un fotograma, una esquina de un objeto o espacio, o una intersección de objetos en un plano de fotograma; o un punto, un lado o una cierta región que tiene una gran diferencia en luminancia o matiz entre una cierta región y sus alrededores.
El extractor 311 extrae vectores de característica de los puntos clave detectados por el detector 310. Un vector de característica representa, por medio de un vector, la distribución de las direcciones de gradiente de la luminancia o matiz de píxeles incluidos en una región específica que tiene un punto clave. Obsérvese que un punto clave y un vector de característica pueden ser otra información de imagen detectada usando, por ejemplo, información de textura o información después de la conversión de frecuencia.
El controlador 312 selecciona dos fotogramas de un conjunto de fotogramas multivista como un par de fotogramas. Además, el controlador 312 determina, usando información de imagen de cada uno de los dos fotogramas, si los dos fotogramas tienen o no la misma información de imagen. Cuando los dos fotogramas tienen la misma información de imagen, el conmutador 313 se conecta al correspondedor 314, mientras que cuando los dos fotogramas no tienen la misma información de imagen, el conmutador 313 se conecta al correspondedor 315, y el par de fotogramas, los puntos clave y los vectores de característica se introducen en el correspondedor 314 o el correspondedor 315.
En este punto, la información de imagen puede ser el tiempo de captura o el número de fotograma de un fotograma añadido a la información de encabezamiento de cada conjunto de fotogramas multivista o cada fotograma, o puede ser una cantidad de cambio en la dirección temporal. Una cantidad de cambio en la dirección temporal puede ser el valor promedio o valor mediano de cantidades de cambio en la dirección temporal de una pluralidad de pequeñas regiones en las que se divide un fotograma. A continuación, en el presente documento, se describirá la información de imagen como el tiempo de captura de un fotograma.
El correspondedor 314 calcula, como puntos correspondientes, puntos clave correspondientes en las regiones enteras de los dos fotogramas, usando los vectores de característica.
El correspondedor 315 divide cada uno de los dos fotogramas en regiones de imagen, cada una de las cuales tiene una o más características, y calcula, como puntos correspondientes, puntos clave correspondientes únicamente en las regiones de imagen cuyas características son similares entre los fotogramas, usando los vectores de característica.
Obsérvese que los puntos correspondientes se calculan calculando una diferencia en el vector de característica entre un punto clave en un fotograma del par de fotogramas y todos los puntos clave en el otro fotograma del par de fotogramas, por ejemplo. Un par de puntos clave que tienen la menor diferencia en los vectores de característica se selecciona como un candidato para los puntos correspondientes, y cuando la diferencia en el vector de característica es menor que un valor de umbral dado, el par de puntos clave se determina como los puntos correspondientes. La diferencia en el vector de característica se obtiene calculando el error cuadrado o error absoluto de los dos vectores.
Obsérvese que las regiones de imagen se obtienen, por ejemplo, dividiendo un fotograma en pequeñas regiones, calculando una característica para cada una de las pequeñas regiones, e integrando las pequeñas regiones que tienen la misma o similares características. Las pequeñas regiones pueden solaparse entre sí, pueden estar adyacentes entre sí, o pueden estar separadas entre sí.
El selector 316 selecciona un fotograma objetivo o un par de fotogramas objetivo para reconstruirse tridimensionalmente, de entre fotogramas que aún no se han reconstruido.
El estimador 317 estima un parámetro de cámara de una cámara que ha capturado el fotograma objetivo o estima los parámetros de cámara de las cámaras que han capturado los fotogramas del par de fotogramas objetivo, usando el fotograma o el par de fotogramas seleccionado por el selector 316 y los puntos correspondientes de un modelo tridimensional reconstruido.
El restaurador 318 reconstruye un modelo tridimensional del sujeto retroproyectando el punto clave en cada fotograma capturado por una o más cámaras cuyos parámetros de cámara se han estimado, en las coordenadas tridimensionales, usando el parámetro o parámetros de cámara estimados por el estimador 317.
Como un ejemplo de un procedimiento de estimación de parámetros de cámara y un procedimiento de reconstrucción de modelo tridimensional usando puntos correspondientes, se calculan coordenadas y orientaciones de cámaras en un sistema de coordenadas mundial bajo restricciones etc. de la geometría epipolar, y además, las posiciones tridimensionales de puntos en imágenes capturadas por las cámaras se calculan en el sistema de coordenadas mundial. La Figura 6 ilustra un ejemplo en el que se estiman parámetros externos de cámaras y un modelo tridimensional del sujeto se reconstruye usando tres fotogramas multivista, dado que se conocen los parámetros internos de la cámara.
Para obtener un parámetro de cámara de cada cámara, necesitan calcularse las matrices de rotación R1, R2 y R3 y los vectores de traslación T1, T2 y T3 entre las cámaras en el sistema de coordenadas mundial que tienen O como el origen. Primero, se describirá un procedimiento de cálculo de la matriz de rotación y el vector de traslación de cámaras que tienen imágenes capturadas 1 y 2. Cuando el punto m1 = (u1, v1, 1) en la imagen 1 y el punto m2= (u2, v2, 1) en la imagen 2 se corresponden entre sí, una ecuación epipolar que satisface la Expresión (3) es válida para los puntos ith y m2.
[FÓRMULA MATEMÁTICA 3]
m [Fm 2 = 0 Expresión (3)
En este punto, F se denominará "matriz fundamental (matriz F)". Usando un parámetro interno K de cada cámara, los puntos m1 y m2 pueden obtenerse como los puntos
m 1 =(xi,yi,zi)
y
m2 =(x2,y2,Z2)
en cada sistema de coordenadas de cámara, sobre la base de la Expresión (4). Como resultado, la ecuación epipolar puede convertirse a la Expresión (5).
[FÓRMULA MATEMÁTICA 4]
m = Km Expresión (4)
[FÓRMULA MATEMÁTICA 5]
f ñ jE m 2 O Expresión (5)
En este punto, E se denominará una "matriz esencial (matriz E)". Cada elemento de la matriz E puede calcularse usando una pluralidad de puntos correspondientes. Después de calcular cada elemento de la matriz F usando una pluralidad de puntos correspondientes, en concreto, por ejemplo, los puntos y m2 en las imágenes, la matriz E puede obtenerse usando la Expresión (6).
[FÓRMULA MATEMÁTICA 6]
E = K-1FK Expresión (6)
Descomponiendo la matriz E, puede obtenerse una matriz de rotación y un vector de traslación desde la imagen 1 a la imagen 2 en el sistema de coordenadas mundial. Si se conocen una posición de la cámara 1 en el sistema de coordenadas mundial y las inclinaciones de la cámara 1 en relación con los ejes del sistema de coordenadas mundial, las posiciones y orientaciones de las cámaras 1 y 2 en el sistema de coordenadas mundial pueden obtenerse usando la relación anterior. La posición y orientación de la cámara 1 en el sistema de coordenadas mundial puede calcularse a base de información de sensor de cámara distinta de un vídeo, o puede medirse por adelantado. Como alternativa, el sistema de coordenadas de cámara de la cámara 1 puede determinarse como un sistema de coordenadas mundial, y pueden calcularse posiciones y orientaciones de las otras cámaras.
El punto tridimensional M en el sistema de coordenadas mundial puede obtenerse a partir de los puntos correspondientes usados en este punto, sobre la base de un triángulo obtenido usando la matriz de rotación y el vector de traslación entre las imágenes 1 y 2.
Además, la relación geométrica anterior se expande a tres puntos de vista. En un ejemplo en el que la imagen 3 se añade a las imágenes 1 y 2, más específicamente, se calculan las matrices E entre las imágenes 2 y 3 y entre las imágenes 1 y 3, y se obtienen las matrices de rotación y los vectores de traslación relativos para estas cámaras. Integrando estas piezas de información juntas, pueden calcularse la matriz de rotación y el vector de traslación de la cámara que ha capturado la imagen 3 en el sistema de coordenadas mundial. Como alternativa, la matriz de rotación y el vector de traslación de la imagen 3 pueden calcularse en relación con la imagen 1 y con la imagen 2 sobre la base de los puntos correspondientes. Más específicamente, los puntos correspondientes se obtienen entre las imágenes 1 y 3 y entre las imágenes 2 y 3. Si se obtiene un punto m3 en la imagen 3 que corresponde al punto th en la imagen 1 y al punto m2 en la imagen 2, puede obtenerse una relación entre el punto m3 en la imagen 3 y las coordenadas en el espacio tridimensional, dado que se conocen las coordenadas tridimensionales del punto correspondiente M. En este momento, la siguiente expresión (7) es válida.
[FÓRMULA MATEMÁTICA 7]
m = PM Expresión (7)
En este punto, P se denominará una "matriz de perspectiva (matriz P)". Dado que la matriz P, la matriz E y la matriz interna satisfacen la siguiente expresión (8), puede obtenerse la matriz E de la imagen 3. Por lo tanto, pueden obtenerse la matriz de rotación y el vector de traslación.
[FÓRMULA MATEMÁTICA 8]
P = KE Expresión (8)
Obsérvese que incluso si no se conoce el parámetro interno, la matriz interna y la matriz E pueden determinarse calculando la matriz F o la matriz P y, a continuación, dividiendo la matriz F o la matriz P bajo la restricción de que la matriz interna es una matriz triangular superior y la matriz E es una matriz simétrica definida positiva.
El optimizador 319 corrige el parámetro de cámara y el modelo tridimensional del sujeto.
El parámetro o parámetros de cámara estimados por el estimador 317 y el modelo tridimensional del sujeto reconstruido por el restaurador 318 incluyen un error debido a la precisión de la detección de punto clave o la precisión del cálculo de puntos correspondientes. Un ejemplo del procesamiento de optimización del optimizador 319 es que un punto tridimensional del modelo tridimensional reconstruido del sujeto se reproyecta en el fotograma de cada cámara, y el parámetro o parámetros de cámara y el punto tridimensional del sujeto se ajustan finamente para minimizar la suma de diferencias absolutas o la suma de diferencias cuadradas de la posición de punto bidimensional original.
La Figura 7 ilustra un flujo de procesamiento del reconstructor 240 tridimensional.
Primero, el detector 310 detecta puntos clave de todos los fotogramas incluidos en un conjunto de fotogramas (S3100).
A continuación, el extractor 311 calcula un vector de característica para cada punto clave detectado por el detector 310, usando el punto clave y píxeles periféricos (S3110).
A continuación, el controlador 312 selecciona dos fotogramas del conjunto de fotogramas como un par de fotogramas, y determina si los dos fotogramas tienen el mismo tiempo de captura, usando la información de tiempo de captura o la información de número de fotograma añadida a la información de encabezamiento del conjunto de fotogramas o cada fotograma (S3120). El controlador 312 conecta el conmutador 313 al correspondedor 314 cuando los dos fotogramas tienen el mismo tiempo de captura, y conecta el conmutador 313 al correspondedor 315 cuando los dos fotogramas no tienen el mismo tiempo de captura, para introducir secuencialmente el par de fotogramas, los puntos clave y los vectores de característica en el correspondedor 314 o el correspondedor 315 (S3120).
Obsérvese que los tiempos de captura no necesitan ser exactamente los mismos, y puede determinarse que dos fotogramas tienen el mismo tiempo de captura cuando la diferencia de tiempo entre los tiempos de captura de los dos fotogramas es menor que un valor umbral predeterminado.
En el caso de Sí en S3120, el correspondedor 314 calcula, como puntos correspondientes, puntos clave correspondientes en los fotogramas del par de fotogramas, usando los vectores de característica extraídos por el extractor 311 (S3130).
En el caso de NO en S3120, el correspondedor 315 divide cada fotograma del par de fotogramas en una o más regiones de imagen, cada una de las cuales tiene una característica, y el correspondedor 315 calcula, como puntos correspondientes, puntos clave correspondientes únicamente en las regiones de imagen que tienen características similares entre los fotogramas del par de fotogramas, usando los vectores de característica extraídos por el extractor 311 (S3140).
Obsérvese que S3120 a S3140 se realizan repetidamente para todos o una porción de pares de fotogramas incluidos en el conjunto de fotogramas.
A continuación, usando los puntos correspondientes calculados por el correspondedor 314 o el correspondedor 315 y untos tridimensionales calculados por el optimizador 319, el selector 316 selecciona una cámara objetivo o un par de cámaras objetivo para la reconstrucción tridimensional de entre las cámaras que han capturado los fotogramas que aún no se han reconstruido (S3150).
A continuación, el estimador 317 estima un parámetro de cámara de la cámara objetivo o el par de cámaras objetivo seleccionado por el selector 316, usando los puntos correspondientes calculados por el correspondedor 314 o el correspondedor 315 y el punto tridimensional calculado por el optimizador 319 (S3160).
A continuación, usando el parámetro de cámara estimado por el estimador 317, el restaurador 318 reconstruye un punto clave en un fotograma capturado por la cámara objetivo como un punto tridimensional y calcula las coordenadas tridimensionales del punto clave (S3170).
A continuación, el optimizador 319 corrige el parámetro de cámara estimado por el estimador 317 y el punto tridimensional calculado por el restaurador 318 de tal forma que el modelo tridimensional reconstruido se optimiza como un todo (S3180).
Un ejemplo de la optimización del modelo tridimensional es minimizar un error entre una posición de punto bidimensional original de un punto clave y una posición de punto bidimensional obtenida reproyectando, en cada fotograma, un punto tridimensional reconstruido usando el parámetro de cámara.
Obsérvese que S3150 a S3180 se realizan repetidamente hasta que se reconstruyen todos o una porción de los fotogramas en el conjunto de fotogramas.
Esto hace posible reconstruir modelos tridimensionales de serie temporal que tienen los mismos ejes de coordenadas en cada punto de tiempo, independientemente del movimiento de las cámaras o el sujeto.
Obsérvese que S3120 a S3140 pueden realizarse inmediatamente después de S3150. En este momento, se determinan los puntos correspondientes en el par de fotogramas para un par de cámaras o una cámara seleccionada por el selector 316. Cuando el selector 316 selecciona un par de cámaras, se realiza el procesamiento para determinar los puntos correspondientes únicamente en los fotogramas capturados por cada cámara del par de cámaras. Es decir, el procesamiento de S3120 a S3140 en la Figura 7 se realiza únicamente una vez. Cuando el selector 316 selecciona una cámara, se realiza el procesamiento para formar puntos correspondientes entre un fotograma objetivo capturado por la cámara seleccionada y todos los fotogramas distintos del fotograma objetivo. Es decir, cuando el número de fotogramas introducidos es N, el procesamiento de S3120 a S3140 en la Figura 7 se realiza N-1 veces. Obsérvese que el número de veces que se realiza el procesamiento no se limita a N-1; puede realizarse únicamente en los fotogramas de la cámara estimada cuando se realiza S3150, o puede seleccionarse arbitrariamente al menos un fotograma de entre los fotogramas distintos del fotograma objetivo.
En este punto, se describirá en detalle un ejemplo de una configuración interna del correspondedor 315.
La Figura 8 ilustra un ejemplo de una configuración interna del correspondedor 315 de acuerdo con la presente realización.
El correspondedor 315 incluye un estimador 410 de movimiento, un divisor 411, un correspondedor 412 y un almacenamiento 413.
Con cada fotograma del par de fotogramas como un fotograma objetivo, el estimador 410 de movimiento realiza lo siguiente: obtiene un fotograma precedente que precede temporalmente al fotograma objetivo o un fotograma siguiente que sigue temporalmente al fotograma objetivo, o tanto el fotograma precedente como el fotograma siguiente, almacenado en el almacenamiento 413; divide el fotograma objetivo en una pluralidad de pequeñas regiones; y estima, para cada pequeña región, un vector de movimiento como la característica de la pequeña región. En este punto, el fotograma precedente y el fotograma siguiente son fotogramas capturados por una cámara que ha capturado el fotograma objetivo.
Usando los vectores de movimiento de la pluralidad de pequeñas regiones estimadas por el estimador 410 de movimiento, el divisor 411 integra las pequeñas regiones cuyos vectores de movimiento son los mismos o similares. Como resultado, el fotograma se divide en una región en movimiento y una región estática.
Usando los vectores de característica extraídos por el extractor 311, el correspondedor 412 calcula, como puntos correspondientes, puntos clave correspondientes únicamente en las regiones estáticas de los fotogramas del par de fotogramas entre las regiones de imagen divididas por el divisor 411. Además, el fotograma objetivo se almacena en el almacenamiento 413.
La Figura 9 ilustra un flujo de procesamiento del correspondedor 315 de acuerdo con la presente realización.
Primero, el controlador 312 comprueba si los fotogramas del par de fotogramas tienen el mismo tiempo de captura (S3200).
A continuación, cuando los fotogramas tienen el mismo tiempo de captura en S3200, el conmutador 313 se conecta al correspondedor 314, mientras que cuando los fotogramas no tienen el mismo tiempo de captura, el conmutador 313 se conecta al correspondedor 315 (S3210).
(Cuando los fotogramas tienen el mismo tiempo de captura en S3210)
A continuación, con respecto a todos los puntos clave detectados por el detector 310, el correspondedor 314 determina los puntos correspondientes entre los fotogramas, usando los vectores de característica extraídos por el extractor 311 (S3220).
(Cuando los fotogramas no tienen el mismo tiempo de captura en S3210)
A continuación, para cada fotograma del par de fotogramas, el estimador 410 de movimiento estima los vectores de movimiento de las pequeñas regiones, usando el fotograma objetivo y un fotograma precedente que precede temporalmente al fotograma objetivo y se ha capturado por una cámara que ha capturado el fotograma objetivo o un fotograma siguiente que sigue temporalmente al fotograma objetivo y se ha capturado por la cámara que ha capturado el fotograma objetivo, o tanto el fotograma precedente como el fotograma siguiente, almacenado en el almacenamiento 413 (S3230).
Por ejemplo, el fotograma objetivo puede dividirse en pequeñas regiones, teniendo cada una 15x15 píxeles, y puede calcularse un vector de movimiento del píxel central en la dirección temporal.
Obsérvese que cuando el fotograma o fotogramas extraídos del almacenamiento 413 no tiene o no tienen que usarse en un procesamiento posterior, el fotograma o fotogramas pueden borrarse en este punto.
A continuación, el divisor 411 divide el fotograma objetivo en una región en movimiento y una región estática integrando las pequeñas regiones que tienen los mismos o similares vectores de movimiento, usando los vectores de movimiento que son características de las pequeñas regiones estimadas por el estimador 410 de movimiento (S3240).
Específicamente, la magnitud de cada vector de movimiento calculado en S3230 se compara con un valor umbral, y cuando la magnitud del vector de movimiento es mayor que o igual al valor umbral, la pequeña región para la que se ha calculado el vector de movimiento se clasifica como una región en movimiento, y cuando la magnitud del vector de movimiento es menor que el valor umbral, la pequeña región se clasifica como una región estática.
El vector de movimiento calculado en este punto como
es, por ejemplo, un vector bidimensional (X1, Y1) compuesto de un componente X y un componente Y, y la magnitud del vector de movimiento
puede calcularse sobre la base de la Expresión (9).
[FÓRMULA MATEMÁTICA 9]
|?| = J x f Y]2 Expresión (9)
Obsérvese que teniendo en cuenta el movimiento de la cámara, un vector global
Kg = (Xg1, Ygl)
que representa el movimiento de todo el fotograma provocado por el movimiento de la cámara puede calcularse. A continuación, el movimiento de cada pequeña región puede estimarse usando el vector de movimiento
V r = { x ' j, Y ' j )
que se corrige usando el vector global como se muestra en la Expresión (10) y la Expresión (11).
[FÓRMULA MATEMÁTICA 10]
X'i=Xi-Xgi Expresión (10)
[FÓRMULA MATEMÁTICA 11]
Y'i =Yi-Ygi Expresión (11)
A continuación, con respecto a los puntos clave en las regiones estáticas obtenidas a través de la división por el divisor 411, el correspondedor 412 determina puntos correspondientes entre los fotogramas, usando los vectores de característica extraídos por el extractor 311. Además, el fotograma objetivo se almacena en el almacenamiento 413 (S3250).
Obsérvese que la pluralidad de pequeñas regiones en las que se realiza una estimación de movimiento pueden establecerse para solaparse entre sí, o pueden establecerse para ser adyacentes entre sí, o pueden establecerse para estar separadas entre sí.
Obsérvese que el centro de cada pequeña región en la que la estimación de movimiento es En este momento, el número realizado puede considerarse como. un punto clave de pequeñas regiones y el número de puntos clave son los mismos. Como una posibilidad no reivindicada adicional, en este momento, no es necesario dividir la región del fotograma; los puntos clave pueden clasificarse en puntos en movimiento y puntos estáticos usando los vectores de movimiento de los puntos clave.
Obsérvese que el resultado de la división por el divisor 411 puede usarse para la conexión del conmutador 313 realizada por el controlador 312. Específicamente, un fotograma se divide en una o más regiones usando los vectores de movimiento de las pequeñas regiones estimadas por el estimador 410. Cuando ambos fotogramas del par de fotogramas tienen una región y las características de las regiones son las mismas o similares, el conmutador 313 se conecta al correspondedor 314, de otra manera, el conmutador 313 se conecta al correspondedor 315. En este momento, el correspondedor 315 calcula puntos clave correspondientes usando únicamente los puntos clave en las regiones que tienen las mismas o similares características.
Como se describe anteriormente, usando los puntos clave en todas las regiones de imagen para fotogramas que tienen el mismo tiempo de captura y usando únicamente los puntos clave en las regiones estáticas para fotogramas que tienen diferentes tiempos de captura, es posible, cuando se realiza reconstrucción tridimensional usando puntos correspondientes en regiones en movimiento para fotogramas que tienen diferentes tiempos de captura, reducir la dificultad en una estimación de parámetro de cámara precisa y reconstrucción de punto tridimensional debido a que las posiciones tridimensionales de dos puntos correspondientes son diferentes, y es posible reconstruir modelos tridimensionales de serie temporal que tienen los mismos ejes de coordenadas, independientemente del movimiento de las cámaras o el sujeto.
Obsérvese que aunque se ha descrito un procedimiento de captura de imágenes, etc. de acuerdo con uno o más aspectos de la presente divulgación a base de cada realización y variación anterior, la presente divulgación no se limita a cada realización o variación anterior. Uno o más aspectos de la presente divulgación también incluyen los siguientes ejemplos.
(1) Cada uno de los dispositivos anteriormente descritos es, específicamente, un sistema informático que incluye un microprocesador, una ROM, una RAM, una unidad de disco duro, una unidad de visualización, un teclado y un ratón, por ejemplo. Un programa informático se almacena en la RAM o la unidad de disco duro. Cada uno de los dispositivos consigue su función como resultado del microprocesador que opera de acuerdo con el programa informático. En este punto, el programa informático está configurado combinando una pluralidad de códigos de instrucción que indican instrucciones para que el ordenador consiga una función dada.
(2) Una porción o todos los elementos estructurales de cada del dispositivo anteriormente descritos pueden configurarse a partir de un sistema de integración a gran escala (LSI). Un sistema LSI es una LSI supermultifuncional fabricada con una pluralidad de componentes integrados en un único chip, y específicamente es un sistema informático que incluye un microprocesador, ROM y RAM, por ejemplo. En la RAM se almacena un programa informático. El sistema LSI consigue su función como resultado del microprocesador que opera de acuerdo con el programa informático.
(3) Una porción o todos los elementos estructurales de cada uno de los dispositivos descritos anteriormente pueden configurarse a partir de una tarjeta de CI extraíble del dispositivo o un módulo independiente. La tarjeta de CI y el módulo son sistemas informáticos configurados a partir de un microprocesador, una ROM y una RAM, por ejemplo. La tarjeta de CI y el módulo pueden incluir la LSI supermultifuncional descrita anteriormente. La tarjeta de CI y el módulo consiguen su función como resultado del microprocesador que opera de acuerdo con un programa informático. La tarjeta de CI y el módulo pueden ser a prueba de manipulación.
(4) La presente divulgación puede realizarse como los procedimientos descritos anteriormente. Además, la presente divulgación puede realizarse también como un programa informático que realiza tales procedimientos con un ordenador, o como una señal digital del programa informático.
Además, la presente divulgación puede realizarse también como el programa informático o la señal digital grabada en medios de grabación legibles por ordenador, tales como un disco flexible, disco duro, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, Disco Blu-ray (marca comercial registrada) (BD) o una memoria de semiconductores. La presente divulgación puede realizarse también como una señal digital grabada en los medios de grabación anteriormente mencionados.
Además, la presente divulgación también puede realizarse transmitiendo el programa informático o la señal digital a través de, por ejemplo, una línea de comunicación eléctrica, una línea inalámbrica o por cable, una red tal como la Internet, o difusión de datos.
Además, la presente invención puede ser un sistema informático que incluye memoria que almacena un programa informático y un microprocesador que opera de acuerdo con el programa informático.
Además, el programa o la señal digital puede implementarse por otro sistema informático independiente almacenándose en el medio de grabación y transmitiéndose, o transmitiéndose a través de la red, por ejemplo. (5) La realización y variación anteriores pueden combinarse.
Aplicabilidad industrial
La presente divulgación es útil en un dispositivo de reconstrucción tridimensional o un procedimiento de reconstrucción tridimensional.
MARCAS DE REFERENCIA EN LOS DIBUJOS
100-1 a 100-n cámara
200 dispositivo de reconstrucción tridimensional
receptor almacenamiento obtenedor
reconstructor tridimensional transmisor
-1 a 200-n conjunto de fotogramas detector
extractor
controlador
conmutador correspondedor correspondedor
selector
estimador
restaurador
optimizador
estimador
divisor
correspondedor
almacenamiento

Claims (9)

REIVINDICACIONES
1. Un procedimiento de reconstrucción tridimensional de reconstrucción de un modelo tridimensional a partir de imágenes multivista capturadas por una pluralidad de cámaras (100) con diferentes puntos de vista, comprendiendo el procedimiento:
seleccionar (S2300) dos fotogramas de las imágenes multivista;
calcular un tiempo de captura de cada uno de los dos fotogramas;
seleccionar un procedimiento de cálculo de puntos clave correspondientes en los dos fotogramas; y calcular (S3100, S3200) los puntos clave correspondientes usando el procedimiento de cálculo de puntos clave correspondientes seleccionados en la selección del procedimiento de cálculo de puntos clave correspondientes; caracterizado por
siendo el procedimiento de cálculo de los puntos clave correspondientes seleccionado de acuerdo con los tiempos de captura, en el que los puntos clave correspondientes se calculan usando diferentes procedimientos dependiendo de si los tiempos de captura son los mismos, en el que,
cuando los dos fotogramas tienen el mismo tiempo de captura, se calculan los puntos clave correspondientes en regiones enteras de los dos fotogramas (S3130), y
cuando los dos fotogramas no tienen el mismo tiempo de captura,
cada uno de los dos fotogramas se divide (S3140) en una pluralidad de regiones, teniendo cada una un vector de movimiento,
se identifican regiones que tienen el mismo vector de movimiento, con una magnitud más pequeña que un valor umbral, en los dos fotogramas, y
se calculan (S3140) los puntos clave correspondientes únicamente en las regiones identificadas, usando vectores de característica de los puntos clave; y
reconstruir (S3150) el modelo tridimensional a base de los puntos clave correspondientes calculados.
2. El procedimiento de reconstrucción tridimensional de acuerdo con la reivindicación 1, en el que
el tiempo de captura de cada uno de los dos fotogramas es el tiempo de captura en el que se ha capturado el fotograma o un número del fotograma en un orden de captura, siendo el orden de captura un orden en el que se capturan fotogramas por una misma cámara (100).
3. El procedimiento de reconstrucción tridimensional de acuerdo con la reivindicación 1, en el que
los dos fotogramas tienen el mismo tiempo de captura cuando una diferencia en tiempo de captura entre los dos fotogramas es menor que un umbral predeterminado.
4. El procedimiento de reconstrucción tridimensional de acuerdo con la reivindicación 1, en el que
cuando los dos fotogramas no tienen el mismo tiempo de captura, el cálculo de los puntos clave correspondientes incluye:
para cada uno de los dos fotogramas, dividir el fotograma en regiones, y estimar vectores de movimiento de las regiones usando un fotograma precedente que precede temporalmente al fotograma o un fotograma siguiente que sigue temporalmente al fotograma, o tanto el fotograma precedente como el fotograma siguiente, siendo el fotograma precedente y el fotograma siguiente fotogramas capturados por una cámara (100) que ha capturado el fotograma;
dividir cada uno de los dos fotogramas en una región en movimiento y una región estática, usando los vectores de movimiento; y
calcular los puntos clave correspondientes únicamente en las regiones estáticas de los dos fotogramas.
5. El procedimiento de reconstrucción tridimensional de acuerdo con una cualquiera de las reivindicaciones 1 a 4, comprendiendo adicionalmente
seleccionar un fotograma de cada una de las imágenes multivista capturadas por cada una de las cámaras multivista para constituir un conjunto de fotogramas (200-1), en el que los fotogramas se capturaron en el mismo punto de tiempo;
actualizar uno de los fotogramas del fotograma (200-1) a un fotograma que se ha capturado en el siguiente punto en el tiempo para constituir un conjunto (200-2) de fotogramas actualizado; y
realizar secuencialmente una reconstrucción tridimensional mediante procesamiento repetitivo usando el conjunto (200-1) de fotogramas y el conjunto (200-2) de fotogramas actualizado, en el que
en la reconstrucción tridimensional, se calcula un punto clave correspondiente usando únicamente las regiones que tienen el mismo vector de movimiento, con una magnitud más pequeña que el valor umbral, entre fotogramas que se incluyen en el conjunto de fotogramas actualizado y cuyos tiempos de captura son diferentes.
6. El procedimiento de reconstrucción tridimensional de acuerdo con la reivindicación 5, en el que
cada conjunto (200-1, 200-2) de fotogramas incluye cinco imágenes.
7. El procedimiento de reconstrucción tridimensional de acuerdo con una cualquiera de las reivindicaciones 1 a 6, en el que
los dos fotogramas se capturan desde diferentes puntos de vista.
8. El procedimiento de reconstrucción tridimensional de acuerdo con una cualquiera de las reivindicaciones 1 a 7, en el que
el vector de movimiento de una región se corrige usando un vector global que representa el movimiento de todo el fotograma provocado por un movimiento de la cámara (100).
9. El procedimiento de reconstrucción tridimensional de acuerdo con la reivindicación 8, en el que
el centro de cada región se considera como un punto clave.
ES17785812T 2016-04-22 2017-04-06 Procedimiento de reconstrucción tridimensional Active ES2908230T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016086595A JP6754992B2 (ja) 2016-04-22 2016-04-22 三次元再構成方法
PCT/JP2017/014330 WO2017183470A1 (ja) 2016-04-22 2017-04-06 三次元再構成方法

Publications (2)

Publication Number Publication Date
ES2908230T3 true ES2908230T3 (es) 2022-04-28
ES2908230T9 ES2908230T9 (es) 2022-05-09

Family

ID=60116804

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17785812T Active ES2908230T3 (es) 2016-04-22 2017-04-06 Procedimiento de reconstrucción tridimensional

Country Status (6)

Country Link
US (1) US10789765B2 (es)
EP (1) EP3447730B9 (es)
JP (1) JP6754992B2 (es)
CN (1) CN109074624B (es)
ES (1) ES2908230T3 (es)
WO (1) WO2017183470A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7054677B2 (ja) * 2016-08-10 2022-04-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ カメラワーク生成方法及び映像処理装置
WO2018048838A1 (en) * 2016-09-06 2018-03-15 Apple Inc. Still image stabilization/optical image stabilization synchronization in multi-camera image capture
JP7320352B2 (ja) * 2016-12-28 2023-08-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元モデル送信方法、三次元モデル受信方法、三次元モデル送信装置及び三次元モデル受信装置
JP7046567B2 (ja) 2017-11-13 2022-04-04 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11475603B2 (en) * 2018-01-26 2022-10-18 Sony Corporation Multiple mesh encoding using motion tracking data of objects
JP7045218B2 (ja) * 2018-02-28 2022-03-31 キヤノン株式会社 情報処理装置および情報処理方法、プログラム
JP7223978B2 (ja) * 2018-05-23 2023-02-17 パナソニックIpマネジメント株式会社 校正装置および校正方法
WO2020041999A1 (en) * 2018-08-29 2020-03-05 Intel Corporation Apparatus and method for feature point tracking using inter-frame prediction
WO2020118565A1 (en) * 2018-12-12 2020-06-18 Huawei Technologies Co., Ltd. Keyframe selection for texture mapping wien generating 3d model
CN110458952B (zh) * 2019-08-19 2022-07-15 江苏濠汉信息技术有限公司 一种基于三目视觉的三维重建方法和装置
CN112767300B (zh) * 2019-10-18 2024-07-09 宏达国际电子股份有限公司 自动生成手部的标注数据的方法和计算骨骼长度的方法
CN111709320B (zh) * 2020-05-28 2023-04-18 杭州电子科技大学 一种基于密度峰值聚类特征选择的三维手写字符识别方法
CN111860226B (zh) * 2020-06-30 2024-06-25 阿波罗智能技术(北京)有限公司 用于图像处理的方法、装置、设备以及存储介质
CN113532315A (zh) * 2021-06-30 2021-10-22 同济大学 基于多目视觉的三维建模设备及其控制方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060125920A1 (en) * 2004-12-10 2006-06-15 Microsoft Corporation Matching un-synchronized image portions
CN1963390A (zh) * 2005-11-08 2007-05-16 李啸炜 一种便捷高效的三维测量方法
CN101247482B (zh) * 2007-05-16 2010-06-02 北京思比科微电子技术有限公司 一种实现动态图像处理的方法和装置
JP4985516B2 (ja) 2008-03-27 2012-07-25 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010250452A (ja) 2009-04-14 2010-11-04 Tokyo Univ Of Science 任意視点画像合成装置
CN101877143B (zh) * 2009-12-09 2012-07-04 中国科学院自动化研究所 一种二维图像组的三维场景重建方法
JP5045827B2 (ja) 2011-02-01 2012-10-10 カシオ計算機株式会社 画像処理装置、画像処理方法、及び、プログラム
WO2012137621A1 (ja) * 2011-04-07 2012-10-11 富士フイルム株式会社 画像処理方法及び装置
US20130278728A1 (en) * 2011-12-16 2013-10-24 Michelle X. Gong Collaborative cross-platform video capture
JP2014038229A (ja) * 2012-08-17 2014-02-27 Sony Corp 画像処理装置、画像処理方法、及びプログラム
US9564175B2 (en) * 2013-04-02 2017-02-07 International Business Machines Corporation Clustering crowdsourced videos by line-of-sight
US10096114B1 (en) * 2013-11-27 2018-10-09 Google Llc Determining multiple camera positions from multiple videos
CN104933755B (zh) * 2014-03-18 2017-11-28 华为技术有限公司 一种静态物体重建方法和***
US9846963B2 (en) * 2014-10-03 2017-12-19 Samsung Electronics Co., Ltd. 3-dimensional model generation using edges
US9965861B2 (en) * 2014-12-29 2018-05-08 Intel Corporation Method and system of feature matching for multiple images
CN105279789B (zh) * 2015-11-18 2016-11-30 中国兵器工业计算机应用技术研究所 一种基于图像序列的三维重建方法
US9648303B1 (en) * 2015-12-15 2017-05-09 Disney Enterprises, Inc. Systems and methods for facilitating three-dimensional reconstruction of scenes from videos
US10074214B2 (en) * 2015-12-31 2018-09-11 Autodesk, Inc. Systems and methods for generating 3D scenes with time element for display
TWI599989B (zh) * 2016-11-29 2017-09-21 財團法人工業技術研究院 用於交通工具之影像處理方法及影像系統
KR102647351B1 (ko) * 2017-01-26 2024-03-13 삼성전자주식회사 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치

Also Published As

Publication number Publication date
ES2908230T9 (es) 2022-05-09
EP3447730A1 (en) 2019-02-27
US20190051036A1 (en) 2019-02-14
JP6754992B2 (ja) 2020-09-16
WO2017183470A1 (ja) 2017-10-26
US10789765B2 (en) 2020-09-29
CN109074624A (zh) 2018-12-21
CN109074624B (zh) 2023-08-15
JP2017194935A (ja) 2017-10-26
EP3447730B9 (en) 2022-04-13
EP3447730B1 (en) 2021-12-22
EP3447730A4 (en) 2019-02-27

Similar Documents

Publication Publication Date Title
ES2908230T3 (es) Procedimiento de reconstrucción tridimensional
JP7143225B2 (ja) 三次元再構成方法及び三次元再構成装置
US20180192033A1 (en) Multi-view scene flow stitching
Vo et al. Spatiotemporal bundle adjustment for dynamic 3d reconstruction
ES2402229T3 (es) Método y dispositivo de fusión de imágenes
ES2951587T3 (es) Un sistema para mezclar o componer en tiempo real objetos 3D generados por ordenador y una señal de video de una cámara cinematográfica
KR102009292B1 (ko) 다중 카메라 기반 삼차원 얼굴 복원 장치 및 방법
BR112018016726B1 (pt) Método de processamento de imagem para realidade mista e dispositivo usado na cabeça
EP3608873B1 (en) Generation device, generation method and program for three-dimensional model
KR20150120066A (ko) 패턴 프로젝션을 이용한 왜곡 보정 및 정렬 시스템, 이를 이용한 방법
JP7170224B2 (ja) 三次元生成方法および三次元生成装置
CN110462685B (zh) 三维模型重建方法和***
JP6403862B1 (ja) 3次元モデルの生成装置、生成方法及びプログラム
WO2019044038A1 (ja) 撮影対象追跡装置及び撮影対象追跡方法
Angladon et al. The toulouse vanishing points dataset
Detchev et al. Calibration of multi-camera photogrammetric systems
JP7170230B2 (ja) 三次元再構成方法及び三次元再構成装置
GB2561525A (en) Method and corresponding device for digital 3D reconstruction
JP5559749B2 (ja) 位置検出装置、位置検出方法及びコンピュータプログラム
Cavegn et al. Evaluation of Matching Strategies for Image-Based Mobile Mapping
JP2015033047A (ja) 複数カメラを用いた奥行き推定装置
KR101421442B1 (ko) 입체카메라 촬영위치 추적방법 및 그 시스템
Louis et al. Rendering stereoscopic augmented reality scenes with occlusions using depth from stereo and texture mapping
Nischt et al. Self-calibration of asynchronized camera networks
KR101456861B1 (ko) 다중 카메라 시스템에서의 오브젝트의 동적 정보를 이용한시공간 교정 추적 방법 및 그 장치