ES2920598T3

ES2920598T3 - Sistema generador de representación tridimensional

Info

Publication number: ES2920598T3
Application number: ES19194824T
Authority: ES
Inventors: Masataka Watanabe; Tsubasa Nakamura
Original assignee: Mind In A Device Co Ltd; University of Tokyo NUC
Current assignee: Mind In A Device Co Ltd; University of Tokyo NUC
Priority date: 2018-09-10
Filing date: 2019-09-02
Publication date: 2022-08-05
Anticipated expiration: 2039-09-02
Also published as: CN110889426A; EP3621041B1; JP2020042503A; US20200082641A1; EP3621041A1

Abstract

Se genera una representación tridimensional correspondiente a imágenes de fotografías reales obtenidas de un sujeto de fotografía por cámaras plurales. Las imágenes de error se generan entre las imágenes de fotografías reales y las imágenes de fotografías virtuales obtenidas por una unidad de observación virtual de representación tridimensional. Se genera una cantidad de corrección de la representación tridimensional para corresponder a las imágenes de error. La representación tridimensional se corrige de acuerdo con el monto de la corrección. En la unidad de observación virtual de representación tridimensional, se realiza un proceso de representación para la representación tridimensional y, por lo tanto, las imágenes de fotografía virtual se generan para obtener fotografiando la representación tridimensional utilizando cámaras virtuales correspondientes a las cámaras. La representación tridimensional incluye superficies divisionales plurales dispuestas en un espacio tridimensional. La cantidad de corrección incluye cantidades de corrección de posiciones y direcciones de las superficies divisionales plurales. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistema generador de representación tridimensional

ANTECEDENTES

Campo técnico

La presente invención se refiere a un sistema generador de representación tridimensional.

Técnica antecedente

Usando un clasificador, un sistema detecta un objeto en una imagen obtenida por una cámara bidimensional o tridimensional (ver, por ejemplo, la Publicación de Patente Japonesa N.° 2016-218999).

Para el clasificador, este sistema propone un método de entrenamiento. En el método de entrenamiento, se recopila un modelo de entorno objetivo como un conjunto de una imagen de color bidimensional y una imagen de profundidad tridimensional (es decir, un mapa de profundidad) de un entorno objetivo, se realiza un proceso de representación del modelo de entorno objetivo y un modelo de objeto tridimensional de un ser humano o similar, y el proceso de representación da como resultado una imagen que se usará como datos de entrenamiento.

Además, un aparato de modelado tridimensional genera varios modelos tridimensionales sobre la base de varios pares de imágenes fotográficas fotografiadas por una cámara estéreo, respectivamente; y genera un modelo tridimensional de mayor precisión sobre la base de los modelos tridimensionales plurales (ver, por ejemplo, la Publicación de Patente Japonesa N.° 2012-248221).

Además, se describe otro sistema y método para generar un modelo tridimensional de un objeto, por ejemplo, en el documento US 2018/047208 A1.

COMPENDIO

Problema técnico

Si se usa una cámara estereoscópica de la manera mencionada anteriormente del aparato de modelado tridimensional, la información de profundidad se obtiene sobre la base del paralaje de la cámara estereoscópica. En general, para derivar una distancia de cada píxel en las imágenes fotográficas obtenidas por la cámara estereoscópica, se requiere determinar los píxeles correspondientes entre sí en un par de imágenes fotográficas. Además, la determinación de tales píxeles correspondientes entre sí requiere mucho cálculo. Además, en un par de imágenes fotográficas, apenas se determina un par adecuado de tales píxeles correspondientes entre sí en un área que tiene valores de píxeles sustancialmente uniformes. Como se mencionó, los problemas antes mencionados surgen de la manera antes mencionada para derivar información de distancia de cada píxel a partir de un par de imágenes fotográficas obtenidas por una cámara estereoscópica.

Además, en el mencionado sistema, se usa una imagen obtenida por una cámara bidimensional o tridimensional directamente como entrada del clasificador, y en consecuencia, no se pueden obtener datos de forma explícita de un modelo tridimensional o similar, y para una clasificación correcta píxel por píxel, se requiere preparar enormes datos de entrenamiento y entrenar adecuadamente al clasificador usando los datos de entrenamiento.

Solución al problema

Un sistema generador de representación tridimensional según un aspecto de la presente invención incluye una unidad de cálculo de errores; una unidad de cálculo de cantidad de corrección de representación tridimensional; una unidad de cálculo de representación tridimensional configurada para generar una representación tridimensional correspondiente a imágenes fotográficas reales obtenidas de un sujeto fotografiado por una pluralidad de cámaras predeterminadas; y una unidad de observación virtual de representación tridimensionales. Además, la unidad de cálculo de errores genera imágenes de error entre las imágenes de fotografías reales y las imágenes de fotografías virtuales obtenidas por la unidad de observación virtual de representación tridimensional. La unidad de cálculo de cantidad de corrección de representación tridimensional genera una cantidad de corrección de representación tridimensional, la cantidad de corrección correspondiente a las imágenes de error. La unidad de cálculo de representación tridimensional corrige la representación tridimensional de acuerdo con la cantidad de corrección generada por la unidad de cálculo de cantidad de corrección de representación tridimensional. La unidad de observación virtual de representación tridimensional incluye una unidad de renderizado configurada para realizar un proceso de renderizado de la representación tridimensional y así generar las imágenes de fotografía virtual, imágenes de fotografía virtual obtenidas al fotografiar la representación tridimensional usando las cámaras virtuales correspondientes a la cámaras. La representación tridimensional incluye superficies divisorias plurales dispuestas en un espacio tridimensional. La cantidad de corrección de representación tridimensional incluye cantidades de corrección de posiciones y direcciones de las superficies divisorias plurales. Estos y otros objetivos, características y ventajas de la presente descripción se harán más evidentes con la lectura de la siguiente descripción detallada junto con los dibujos adjuntos.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La Figura 1 muestra un diagrama de bloques que indica una configuración de un sistema de generación de representación tridimensionales en la Realización 1 de la presente invención;

Las Figura 2 y 3 muestran diagramas que explican una pluralidad de superficies divisorias incluidas por una representación tridimensional en la Realización 1;

La Figura 4 muestra un diagrama que explica un proceso de representación para las superficies divisorias que se muestran en las Figura 2 y 3;

la Figura 5 muestra un diagrama de flujo que explica el comportamiento del sistema generador de representación tridimensional en la Realización 1;

La Figura 6 muestra un diagrama que explica el entrenamiento de una red neuronal profunda en una unidad de cálculo de cantidad de corrección de representación tridimensional 12 en la Realización 1;

La Figura 7 muestra un diagrama que explica la división de una imagen de error y superficies divisorias en la Realización 2; y

La Figura 8 muestra un diagrama de bloques que indica una configuración de un sistema generador de representación tridimensional en la Realización 4 de la presente invención.

DESCRIPCIÓN DETALLADA

A continuación, se explicarán realizaciones según aspectos de la presente invención con referencia a los dibujos.

Realización 1.

La Figura 1 muestra un diagrama de bloques que indica una configuración de un sistema generador de representación tridimensional en la Realización 1 de la presente invención. Un sistema generador de representación tridimensional que se muestra en la Figura 1 incluye una pluralidad de cámaras 1L y 1R, un dispositivo 2 de almacenamiento y un procesador 10. La pluralidad de cámaras 1L y 1R son dispositivos que fotografían un sujeto fotografiado común (escena). El dispositivo 2 de almacenamiento es un dispositivo de almacenamiento no volátil como una memoria flash o una unidad de disco duro y almacena datos, un programa y/o similares. El procesador 10 incluye un ordenador que incluye una CPU (Unidad Central de Procesamiento), una ROM (Memoria de Solo Lectura), una RAM (Memoria de Acceso Aleatorio) y similares, y carga un programa desde la ROM, el dispositivo 2 de almacenamiento o similar. a la RAM y ejecuta el programa usando la CPU y de esta manera actúa como unidades de procesamiento.

En esta realización, la pluralidad de cámaras 1L y 1R es una cámara estereoscópica, pero no se limita a esto, y se pueden usar tres o más cámaras en lugar de las cámaras 1L y 1R. Además, en esta realización, las imágenes fotográficas reales obtenidas por las cámaras 1L y 1R se proporcionan al procesador 10 inmediatamente después de fotografiarse. De manera alternativa, las imágenes fotográficas reales obtenidas por las cámaras 1L y 1R pueden proporcionarse indirectamente desde un medio de grabación u otro dispositivo al procesador 10.

En esta realización, el dispositivo 2 de almacenamiento almacena un programa 2a de generación de representación tridimensional. Por ejemplo, este programa 2a de generación de representación tridimensional se graba en un medio de grabación portátil no transitorio legible por ordenador, se lee desde el medio de grabación y se instala en el dispositivo 2 de almacenamiento. Además, el procesador 10 lee y ejecuta el programa 2a de generación de representación dimensional y por lo tanto actúa como una unidad 11 de cálculo de error, una unidad 12 de cálculo de cantidad de corrección de representación tridimensional, una unidad 13 de cálculo de representación tridimensional, una unidad 14 de observación virtual de representación tridimensional, un clasificador 15, un unidad 16 de generación de estado inicial, y una unidad 17 de control.

La unidad 11 de cálculo de error genera imágenes de error entre las imágenes fotográficas reales obtenidas de un sujeto fotografiado por las cámaras plurales predeterminadas 1L y 1R y las imágenes fotográficas virtuales obtenidas por la unidad 14 de observación virtual de representación tridimensional. Aquí, la imagen de la fotografía real y la imagen de la fotografía virtual tienen los mismos tamaños con las mismas resoluciones en los mismos formatos (por ejemplo, RGB), y la imagen de error se obtiene calculando la diferencia entre la imagen de la fotografía real y la imagen de la fotografía virtual en un píxel por -base de píxeles. La unidad 12 de cálculo de cantidad de corrección de representación tridimensional genera una cantidad dR de corrección de una representación tridimensional tal que la cantidad dR de corrección corresponde a las imágenes de error de un conjunto de imágenes fotográficas reales (aquí, una pareja de una imagen fotográfica real por la cámara 1L y una imagen fotográfica real por la cámara 1R). Las Figuras 2 y 3 muestran diagramas que explican una pluralidad de superficies divisorias incluidas por una representación tridimensional en la Realización 1. Aquí, una representación R tridimensional expresa una forma tridimensional de un objeto en las imágenes fotográficas reales, y como se muestra en la Figura 2, incluye superficies una pluralidad de divisorias DS(i, j) (i = 1, ..., Nx; j = 1, ... Ny) dispuestas en un espacio tridimensional. Aquí, Nx es el número (número constante) de las superficies DS(i, j) divisorias en una dirección X (una dirección de escaneo principal de las imágenes fotográficas reales, por ejemplo, dirección horizontal), y Ny es el número (número constante) de las superficies DS (i, j) divisorias en una dirección Y (una dirección de exploración secundaria de las imágenes fotográficas reales, por ejemplo, dirección vertical). El número total de superficies DS(i, j) divisorias es menor que el número de píxeles de la imagen de error (es decir, el número de píxeles de la imagen de la fotografía real).

Aquí, la superficie DS(i, j) divisoria es un plano y tiene un tamaño predeterminado y una forma predeterminada (aquí, forma rectangular). La superficie DS(i, j) divisoria puede ser una superficie tridimensionalmente curvada (por ejemplo, una superficie esférica), y se puede agregar una curvatura de la superficie curva como una propiedad de la superficie DS(i, j) divisoria para que sea corregible Además, con respecto a la pluralidad de superficies DS(i, j) divisorias, la posición de cada superficie DS(i, j) divisoria casi coincide con la posición de un área parcial en la imagen de error, y el área parcial afecta la corrección de esta superficie DS(i, j) divisoria. Además, en esta realización, la representación R tridimensional puede incluir además una o una pluralidad de fuentes LS(i) (i = 1, ..., NL)de luz, y la cantidad dR de corrección de la representación R tridimensional puede incluir una cantidad de corrección de una característica de emisión de luz de la fuente o las fuentes de luz. Aquí, NL es un número límite superior (número de contacto) de la fuente o las fuentes de luz en la representación R tridimensional.

Por lo tanto, la representación R tridimensional se expresa como la siguiente fórmula con base en los valores de las propiedades de las superficies DS(i, j) divisorias y la fuente o las fuentes LS(i) de luz.

R= (S(l, 1), S(Nx, Ny), L(l), ...,L(NL)) Aquí, S(i, j) es un conjunto de valores de propiedad de una superficie DS(i, j) divisoria, e indica información geométrica (posición, dirección y similares) y una característica óptica de una superficie DS(i, j) divisoria. L(i) es un conjunto de valores de propiedad de una fuente LS(i) de luz e indican información geométrica (posición y similares) y una característica óptica de una fuente LS(i) de luz.

Por ejemplo, un conjunto de valores S(i, j) de propiedad de una superficie DS(i, j) divisoria puede expresarse como la siguiente fórmula.

S(i, j) = (X, Y, Z, THETA, PHI, Ref(l), Ref (Nw),

Tr (1), Tr(Nw))

Aquí, (X, Y, Z) son valores de coordenadas XYZ de un punto representativo (por ejemplo, punto central) de una superficie DS(i, j) divisoria, y (THETA, PHI) son un ángulo de acimut y un ángulo de elevación de una línea normal en el punto representativo de la superficie DS(i, j) divisoria y por lo tanto indica una dirección de la superficie DS(i, j) divisoria. Además, Ref(1), ..., Ref(Nw) son factores de reflexión de rangos de longitud de onda (Nw) en los que se divide un rango de longitud de onda específico (aquí, rango de longitud de onda visible). Además, Tr(1), ..., Tr(Nw) son factores de transmisión de rangos de longitud de onda (Nw) en los que se divide un rango de longitud de onda específico (aquí, rango de longitud de onda visible).

Por lo general, el factor de reflexión y el factor de transmisión de la superficie de un objeto son diferentes según la longitud de onda de la luz incidente y, por lo tanto, dichos factores de reflexión y factores de transmisión de una pluralidad de rangos de longitud de onda en los que se divide un rango de longitud de onda visible se establecen como propiedades de cada superficie DS(i, j)divisoria.

En lugar del factor Ref(i) de reflexión, se pueden usar un factor Ref_S(i) de reflexión especular y un factor Ref_D(i) de reflexión difusa. Además, si la luz de todas las longitudes de onda en el rango de longitud de onda específico no se transmite a través de un objeto como el sujeto fotografiado, se pueden omitir los factores Tr(1), ..., Tr(Nw) de transmisión antes mencionados.

Además, la fuente LS(i) de luz puede expresarse como la siguiente fórmula.

L ( i ) = (X, Y, 1 ^, Em(l), .... £m(Nw), t ipo, THETA, PHI) Aquí, (X, Y, Z) son valores de coordenadas XYZ de un punto representativo (por ejemplo, un punto central) de una fuente LS(i) de luz, y Em(1), ..., Em(Nw) emiten cantidades de luz de rangos de longitud de onda (Nw) en los que se divide un rango de longitud de onda específico (aquí, rango de longitud de onda visible). Además, tipo es un tipo de fuente de luz de la fuente LS(i) de luz, tal como una fuente de luz puntual, una fuente de luz superficial, una fuente de luz direccional o una luz ambiental; y (THETA, PHI) son un ángulo de acimut y un ángulo de elevación que indican una dirección de la luz emitida desde la fuente LS(i) de luz de un tipo específico, como una fuente de luz de superficie o una fuente de luz direccional.

Si el número de fuentes LS(i) de luz es menor que el número límite superior, entonces en un conjunto de valores de propiedad de una fuente de luz inexistente en los datos de las fuentes LS(i) de luz, se hace que la cantidad de luz emitida sea cerca de cero mediante la cantidad de corrección. Además, aquí, el conjunto de valores L(i) de propiedad incluye la propiedad "tipo" que indica un tipo de fuente LS(i) de luz. De manera alternativa, se pueden definir diferentes conjuntos de valores de propiedad correspondientes a los tipos de fuente de luz, respectivamente, y se pueden incluir en la representación R tridimensional. Además, si un tipo de fuente de luz real es constante en un entorno de fotografía real de las cámaras 1L y 1R, entonces un valor del tipo de fuente de luz "tipo" en la representación R tridimensional puede estar limitado al tipo real de la fuente de luz real.

Además, la cantidad dR de corrección de la representación R tridimensional incluye una cantidad de corrección de cada valor de propiedad en la representación R tridimensional, por ejemplo, valores de corrección de posiciones y direcciones de las superficies DS (i, j) divisorias. Aquí la posición y la dirección de la superficie DS(i, j) divisoria son las ya mencionadas (X, Y, Z) y (T^hET^a, PHI).

En esta realización, las posiciones de una superficie DS(i, j) divisoria en las direcciones X e Y (aquí en las direcciones horizontal y vertical) son fijas, y una posición en la dirección Z (es decir, en la dirección de profundidad) y una dirección (THETA, PHI) de una superficie DS(i, j) divisoria son variables y pueden cambiarse con la cantidad dR de corrección mencionada anteriormente.

Cabe señalar que la posición de un objeto en un punto infinito en la dirección de profundidad (dirección Z), como el cielo, se cambia para acercarse a un valor límite superior permitido en la expresión de datos.

En consecuencia, como se muestra en la Figura 3, por ejemplo, se corrigen la posición y la dirección de cada superficie DS(i, j) divisoria y, por lo tanto, una superficie curva tridimensional se expresa con una pluralidad de superficies DS(1, 1), ..., DS(Nx, Ny) divisorias en la representación R tridimensional.

Además, en esta realización, como se mencionó, una superficie DS(i, j) divisoria puede tener no solo una posición y una dirección, sino también un factor Ref(i) de reflexión y/o un factor Tr(i) de transmisión de luz (aquí, ambos), y una cantidad dR de corrección puede incluir una o dos cantidades de corrección del factor Ref(i) de reflexión y/o del factor Tr(i) de transmisión.

La unidad 12 de cálculo de cantidad de corrección de representación tridimensional genera el valor dR de corrección correspondiente a las imágenes de error usando una red neuronal profunda (en lo sucesivo, también denominada "DNN"), y la DNN es una red neuronal convolucional como técnica conocida. Si la entrada de la DNN se normaliza si es necesario y la salida de la DNN se normaliza en un rango de 0 a 1, entonces para cada valor de propiedad, el valor de salida se convierte en un valor correspondiente en un rango desde un valor límite inferior predeterminado (valor negativo ) a un valor límite superior predeterminado (valor positivo).

La entrada de la unidad 12 de cálculo de la cantidad de corrección de representación tridimensional puede incluir no sólo las imágenes de error sino también la representación R tridimensional antes de la corrección.

Volviendo a la Figura 1, la unidad 13 de cálculo de representación tridimensional genera una representación R tridimensional correspondiente a las imágenes de fotografías reales antes mencionadas. Aquí, la unidad 13 de cálculo de representación tridimensional genera una representación R tridimensional de acuerdo con la cantidad dR de corrección generada por la unidad 12 de cálculo de cantidad de corrección de representación tridimensional. Específicamente, para un conjunto de imágenes fotográficas reales, la unidad 13 de cálculo de representación tridimensional cambia una representación R tridimensional actual (es decir, en un estado inicial o un estado después de la corrección anterior) por la cantidad dR de corrección, y por lo tanto genera una representación R tridimensional correspondiente a las imágenes fotográficas reales antes mencionadas. Más específicamente, el valor de cada propiedad aumenta o disminuye en una cantidad especificada por la cantidad dR de corrección.

La unidad 14 de observación virtual de representación tridimensional observa la representación R tridimensional usando cámaras virtuales y similares, así como la observación del sujeto fotografiado usando las cámaras 1L y 1R reales y similares, y por lo tanto genera imágenes fotográficas virtuales y similares.

En esta realización, la unidad 14 de observación virtual de representación tridimensional incluye una unidad 21 de representación. La unidad 21 de representación realiza un proceso de representación para la representación R tridimensional usando un método de trazado de rayos conocido o similar y, por lo tanto, genera las imágenes de fotografías virtuales. de manera que las imágenes de fotografías virtuales se obtienen fotografiando la representación tridimensional R usando una pluralidad de cámaras virtuales correspondientes a la pluralidad de cámaras 1L y 1R.

La Figura 4 muestra un diagrama que explica un proceso de representación para las superficies divisorias que se muestran en las Figura 2 y 3. Aquí, la cámara virtual se obtiene simulando una característica óptica conocida de un sensor de imagen, un sistema óptico como la configuración de la lente y similares (es decir, un tamaño del sensor de imagen, una cantidad de píxeles del sensor de imagen, un distancia focal de la configuración de la lente, ángulo de visión, cantidad de luz transparente (es decir, número f) y similares) de la cámara 1L o 1R correspondiente; y la unidad 21 de renderizado (a) determina una cantidad de luz incidente de luz incidente para cada posición de píxel en un sensor de imagen (virtual) en la cámara virtual teniendo en cuenta la característica óptica usando un método de trazado de rayos o similar, como se muestra en la Figura 4 donde (a1) la luz incidente es luz reflejada o luz transmitida de una o más superficies DS(i, j) divisorias y (a2) la luz reflejada o la luz transmitida se basa en la luz emitida por una fuente LS(i) de luz, (b) determina un valor de píxel correspondiente a la cantidad de luz incidente, y (c) genera una imagen de fotografía virtual basada en los valores de píxel determinados de todos los píxeles en la cámara (virtual).

Volviendo a la Figura 1, el clasificador 15 clasifica un objeto en la representación R tridimensional sobre la base de la pluralidad de superficies DS (1, 1), ..., DS (Nx, Ny) divisorias antes mencionadas en la representación R tridimensional finalizada para un conjunto de imágenes de fotografías reales. Por ejemplo, el clasificador 15 clasifica el objeto usando una DNN tal como una red neuronal convolucional. El clasificador 15 emite los datos de clasificación como un resultado de clasificación. Por ejemplo, los datos de clasificación son códigos de clasificación asociados respectivamente con las superficies DS (i, j) divisorias. El código de clasificación son datos numéricos que indican un tipo de objeto tal como un humano, un automóvil, un edificio, una carretera o el cielo, por ejemplo; y se asigna un código de clasificación único a cada tipo de objeto por adelantado.

La unidad 16 generadora de estado inicial genera un estado inicial (vector inicial) de la representación tridimensional R. Por ejemplo, la unidad 16 generadora de estado inicial genera un estado inicial (vector inicial) de la representación R tridimensional a partir de las imágenes fotográficas usando una DNN como una red neuronal convolucional. Si se establece un vector constante predeterminado como el estado inicial de la representación R tridimensional, se puede omitir la unidad 16 de generación de estado inicial.

La unidad 17 de control adquiere las imágenes fotográficas reales (datos de imagen) de las cámaras 1L y 1R o similares, y controla el procesamiento de datos en el procesador 10, como iniciar la generación de la representación tridimensional y determinar la finalización de la corrección iterativa de la representación tridimensional.

En esta realización, el procesador 10 como un solo procesador actúa como las unidades 11 a 17 de procesamiento mencionadas anteriormente. De manera alternativa, la pluralidad de procesadores capaces de comunicarse entre sí actúan como las unidades 11 a 17 de procesamiento mencionadas anteriormente como procesamiento distribuido. Además, el procesador 10 no se limita a un ordenador que realiza un proceso de software sino que puede usar un hardware de propósito específico tal como un acelerador.

La siguiente parte explica el comportamiento del sistema generador de representación tridimensional en la Realización 1. La Figura 5 muestra un diagrama de flujo que explica el comportamiento del sistema generador de representación tridimensional en la Realización 1.

La unidad 17 de control inicia una operación de acuerdo con una operación de usuario a una interfaz de usuario (no mostrada) conectada al procesador 10, adquiere imágenes fotográficas reales de las cámaras 1L y 1R (en el Paso S1), y realiza la configuración inicial de la representación R tridimensional y las imágenes de fotografías virtuales (en el Paso S2). En este proceso, la representación tridimensional arbitraria se puede establecer como un estado inicial de la representación R tridimensional, o se puede generar un estado inicial de la representación R tridimensional a partir de las imágenes fotográficas reales mediante la unidad 16 generadora de estado inicial. Después de determinar el estado inicial de la representación R tridimensional, los estados iniciales de las imágenes fotográficas virtuales se obtienen realizando un proceso de renderizado para el estado inicial de la representación R tridimensional usando la unidad 21 de renderizado.

Posteriormente, la unidad 11 de cálculo de errores genera cada imagen de error entre una imagen fotográfica real de cada cámara 1i (i = L, R) y una imagen fotográfica virtual de la cámara virtual correspondiente (en el paso S3). En consecuencia, se genera una pluralidad de imágenes de error. Aquí, la imagen de error se genera de cada plano de coordenadas de color correspondiente a un formato (es decir, espacio de color) de las imágenes fotográficas reales y las imágenes fotográficas virtuales. Por ejemplo, si el formato de las imágenes fotográficas reales y las imágenes fotográficas virtuales es RGB, se genera una imagen de error del plano R, una imagen de error del plano G y una imagen de error del plano B para cada pareja de cámara 1 i y cámara virtual

Al generar las imágenes de error, la unidad 17 de control determina si las imágenes de error satisfacen o no una condición de conversión predeterminada (en el Paso S4); y si las imágenes de error satisfacen la condición de conversión predeterminada, entonces la unidad 17 de control finaliza la corrección iterativa de la representación R tridimensional y, de lo contrario, si no, la unidad 17 de control hace que se realice la corrección de la representación R tridimensional de la siguiente manera . Por ejemplo, la condición de conversión es que un valor total o un valor promedio de segundas potencias (o valores absolutos) de valores de píxel en todas las imágenes de error sea menor que un valor de umbral predeterminado. Por lo tanto, si las imágenes fotográficas virtuales se asemejan suficientemente a las imágenes fotográficas reales, entonces se termina la corrección iterativa de la representación R tridimensional.

Si las imágenes de error generadas no satisfacen la condición de conversión mencionada anteriormente, entonces la unidad 12 de cálculo de cantidad de corrección de representación tridimensional calcula una cantidad de corrección dR de la representación R tridimensional a partir de la pluralidad de imágenes de error generadas como entrada (en el paso S5). En este proceso, la representación R tridimensional actual (es decir, la anterior a la corrección en este momento) también puede usarse como entrada de la unidad 12 de cálculo de cantidad de corrección de representación tridimensional.

Al obtener la cantidad dR de corrección de la representación R tridimensional, la unidad 13 de cálculo de representación tridimensional cambia (a) los valores de propiedad en un conjunto S(i, j) de valores de propiedad de cada superficie DS(i, j) divisoria y (b) los valores de propiedad en un conjunto L(i) de valores de propiedad de cada fuente LS(i) de luz por cantidades de corrección respectivas especificadas por la cantidad dR de corrección, y por lo tanto corrige la representación R tridimensional (en el paso S6).

Posteriormente, cada vez que se realiza la corrección de la representación R tridimensional, la unidad 21 de representación en la unidad 14 de observación virtual de representación tridimensional realiza un proceso de representación de las superficies DS (1, 1), ..., DS(Nx, Ny) divisorias sobre la base de la representación R tridimensional corregida y, por lo tanto, genera imágenes fotográficas virtuales de múltiples cámaras virtuales correspondientes a la pluralidad de cámaras 1L y 1R reales (en el paso S7).

Posteriormente, volviendo al paso S3, la unidad 11 de cálculo de error genera imágenes de error entre las imágenes fotográficas virtuales recién generadas a partir de la representación R tridimensional corregida y las imágenes fotográficas reales ya obtenidas. Posteriormente, como se mencionó, hasta que las imágenes de error satisfagan la condición de conversión antes mencionada, se realiza iterativamente la corrección de la representación R tridimensional (en los pasos S5 a S7).

Por el contrario, si las imágenes de error cumplen la condición de conversión mencionada anteriormente, la unidad 17 de control finaliza la representación R tridimensional para identificar la representación R tridimensional actual como la representación R tridimensional correspondiente a las imágenes fotográficas reales obtenidas, y el clasificador 15 recibe las superficies DS(1, 1), ..., DS(Nx, Ny) divisorias de la representación R tridimensional finalizada como entrada y clasifica un objeto expresado por las superficies DS(1, 1), ..., DS(Nx, Ny) divisorias (en el paso S8). Por ejemplo, el clasificador 15 asocia datos de clasificación que indican una clase de objeto (tipo de objeto) con cada superficie DS(i, j) divisoria y, por ejemplo, envía los datos de clasificación y las superficies DS(i, j) divisorias a un dispositivo externo.

Posteriormente, la unidad 17 de control determina si la operación debe terminarse de acuerdo con una operación de usuario a una interfaz de usuario (no mostrada) o no (en el Paso S9); y si se determina que se debe terminar la operación, entonces la unidad 17 de control termina la generación de la representación R tridimensional, y de lo contrario, si se determina que no se debe terminar la operación, vuelve al Paso S1, la unidad 17 de control adquiere un siguiente conjunto de imágenes fotográficas reales y hace que se realicen procesos en y después del paso S2 también para el siguiente conjunto de imágenes fotográficas reales y genera así una representación R tridimensional correspondiente a las siguientes imágenes fotográficas reales.

Como se mencionó, hasta que las imágenes de error para un conjunto de imágenes fotográficas reales converjan y satisfagan una condición predeterminada, la unidad 11 de cálculo de error, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional, la unidad 13 de cálculo de representación tridimensional, y la unidad 14 de observación virtual de representación tridimensional realiza iterativamente la generación de imágenes de error, la generación de la cantidad de corrección, la corrección de la representación tridimensional y la generación de imágenes fotográficas virtuales a partir de la representación tridimensional, respectivamente. Aquí se explica el entrenamiento de la DNN en la unidad 12 de cálculo de cantidad de corrección de representación tridimensional. La Figura 6 muestra un diagrama que explica el entrenamiento de la DNN en la unidad 12 de cálculo de cantidad de corrección de representación tridimensional en la Realización 1.

La DNN en la unidad 12 de cálculo de cantidad de corrección de representación tridimensional genera una cantidad de corrección dR correspondiente a las imágenes de error. El entrenamiento de esta DNN se realiza automáticamente como sigue, por ejemplo.

En primer lugar, se generan una pluralidad de representaciones Ri (i = 1, ..., p) tridimensionales arbitrarias de referencia para distribuirlas en un espacio de la representación R tridimensional, y se genera una pluralidad de representaciones Rij tridimensionales muestreadas añadiendo una pluralidad de cantidades dRij de corrección a la representación Ri tridimensional de referencia. La cantidad dRij de corrección especifica una o una pluralidad de cantidades de corrección de uno o varios (una parte o la totalidad) de los valores de propiedad, y una o una pluralidad de cantidades de corrección de los valores de propiedad restantes se establecen en cero.

Posteriormente, para cada representación Ri tridimensional de referencia, se generan imágenes fotográficas de referencia realizando un proceso de renderizado para las representaciones Ri tridimensionales de referencia; y las imágenes fotográficas muestreadas se generan realizando un proceso de renderizado para la representación Rij tridimensional muestreada (es decir, la representación tridimensional corregida de la que se conoce la cantidad de corrección) correspondiente a la representación Ri tridimensional de referencia.

Posteriormente, se generan imágenes de error entre las imágenes fotográficas de referencia y las imágenes fotográficas muestreadas, y se obtiene un conjunto de datos de entrenamiento como un par de imágenes de error y la cantidad dRij de corrección antes mencionada. De esta manera, se generan muchos conjuntos de datos de entrenamiento. Sobre la base de los datos de entrenamiento generados como se mencionó, la DNN se entrena de acuerdo con un método de retropropagación de errores, por ejemplo.

Cabe señalar que este proceso de entrenamiento puede ser realizado por el procesador 10, o puede ser realizado por otro dispositivo y, posteriormente, se puede aplicar un resultado de entrenamiento a esta DNN.

Además, la DNN en la unidad 16 generadora de estado inicial también se entrena, por ejemplo, usando pares de representaciones tridimensionales (por ejemplo, las representaciones Ri tridimensionales de referencia y/o las representaciones Rij tridimensionales muestreadas) e imágenes fotográficas virtuales como datos de entrenamiento. Aquí se explica el entrenamiento de la DNN en el clasificador 15.

En el entrenamiento de la DNN en el clasificador 15, se usa un par de (a) las superficies DS(1, 1), ..., DS(Nx, Ny) divisorias y (b) los datos de clasificación de las superficies DS( 1, 1), ..., DS(Nx, Ny) divisorias ...(es decir, las clases asociadas con las superficies divisorias) como un conjunto de datos de entrenamiento. Por lo tanto, se genera un conjunto arbitrario de superficies DS(1, 1), ..., DS(Nx, Ny) divisorias y se generan los datos de clasificación correspondientes a las superficies DS(1, 1), ..., DS( Nx, Ny) divisorias generadas) de acuerdo con la entrada manual, por ejemplo, y por lo tanto se generan los datos de entrenamiento antes mencionados, y la DNN en el clasificador 15 se entrena usando estos datos de entrenamiento.

Como se mencionó, en la Realización 1, la unidad 11 de cálculo de error genera imágenes de error entre las imágenes fotográficas reales obtenidas de un sujeto fotografiado por la pluralidad de cámaras 1L y 1R predeterminadas y las imágenes fotográficas virtuales obtenidas por la unidad 14 de observación virtual de representación tridimensional. La unidad 12 de cálculo de cantidad de corrección de representación tridimensional genera una cantidad dR de corrección de la representación R tridimensional de manera que la cantidad dR de corrección corresponde a las imágenes de error. La unidad 13 de cálculo de representación tridimensional genera una representación R tridimensional de acuerdo con la cantidad dR de corrección generada por la unidad 12 de cálculo de cantidad de corrección de representación tridimensional. La unidad 14 de observación virtual de representación tridimensional incluye la unidad 21 de representación. La unidad 21 de renderizado realiza un proceso de renderizado para la representación R tridimensional y por lo tanto genera las imágenes fotográficas virtuales de manera que las imágenes fotográficas virtuales se obtengan fotografiando la representación R tridimensional usando cámaras virtuales correspondientes a las cámaras 1L y 1R. Aquí, la representación R tridimensional incluye una pluralidad de superficies DS (1, 1), ..., DS (Nx, Ny) divisorias dispuestas en un espacio tridimensional; y la cantidad dR de corrección de la representación R tridimensional incluye cantidades de corrección de posiciones y direcciones de la pluralidad de superficies DS (1, 1), ..., DS (Nx, Ny) divisorias.

En consecuencia, una representación tridimensional expresa un objeto tridimensional que existe en un ángulo de visión de imágenes fotográficas, y dicha representación tridimensional se genera con un cálculo relativamente pequeño a partir de las imágenes fotográficas.

Además, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional usa la DNN y, en consecuencia, se espera que la distancia de un píxel se determine con mayor precisión que la distancia calculada por una cámara estereoscópica ordinaria porque se estima a partir de su circunferencia incluso si el píxel está ubicado en un área que tiene valores de píxel sustancialmente uniformes. Además, las imágenes fotográficas virtuales son generadas a partir de la representación R tridimensional por la unidad 14 de observación virtual de representación tridimensional, y se retroalimentan a las imágenes de error y, en consecuencia, se genera la representación R tridimensional con fidelidad a la imagen. fotográfica real, en comparación con un caso en el que se genera un modelo tridimensional de manera anticipada del aparato de modelado tridimensional antes mencionado. Realización 2.

La Figura 7 muestra un diagrama que explica la división de una imagen de error y las superficies divisorias en la Realización 2. En el sistema de generación de representación tridimensional en la Realización 2, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional divide las imágenes de error y las superficies divisorias como que se muestra en la Figura 7, y genera una cantidad dR de corrección de una representación tridimensional parcial (es decir, una parte de la representación tridimensional) a partir de cada imagen de error divisoria, de modo que la representación tridimensional parcial incluye una parte de las superficies DS(i, j) divisorias y una parte de la fuente o las fuentes L(i) de luz. Aquí, en el plano X-Y, las superficies DS(i, j) divisorias se dividen en partes de superficies divisorias, y cada una de las partes incluye un mismo número predeterminado de superficies divisorias.

Específicamente, en la Realización 2, la unidad 12 de cálculo de la cantidad de corrección de la representación tridimensional divide cada una de las imágenes de error antes mencionadas en una pluralidad de imágenes divisorias, selecciona una de la pluralidad de imágenes divisorias a su vez y genera una cantidad de corrección parcial de la representación tridimensional tal que la cantidad de corrección parcial corresponda a la imagen divisoria seleccionada. Además, en la Realización 2, la unidad 13 de cálculo de representación tridimensional corrige la representación R tridimensional de acuerdo con las cantidades dR de corrección (aquí, las cantidades de corrección de una parte divisoria de las superficies divisorias y la o las fuentes de luz) de las representaciones tridimensionales parciales que corresponden respectivamente a la pluralidad de imágenes divisorias.

Con respecto a la fuente o las fuentes LS(i) de luz, la fuente LS(i) de luz puede corregirse sobre la base de una cantidad de corrección de un conjunto L(i) de valores de propiedad de la fuente LS(i) de luz cuando cada se corrige cada una de las representaciones tridimensionales parciales; o la fuente o las fuentes LS(i) de luz pueden corregirse de inmediato usando (a) un valor promedio de las cantidades de corrección del conjunto L(i) de valores de propiedad de la fuente LS(i) de luz en cantidades de corrección de todas las representaciones tridimensionales (es decir, un valor promedio de las cantidades de corrección que son sustancialmente distintas de cero) o (b) una cantidad de corrección cuyo valor absoluto es el mayor de las cantidades de corrección de todas las representaciones tridimensionales parciales.

Otras partes de la configuración y comportamientos del sistema en la Realización 2 son idénticas o similares a las de cualquiera de la Realización 1 y, por lo tanto, no se explican aquí.

Como se mencionó, en la Realización 2, la imagen divisoria que es más pequeña que la imagen de error entre la imagen fotográfica real y la imagen fotográfica virtual se ingresa a la unidad 12 de cálculo de cantidad de corrección de representación tridimensional, y las cantidades de corrección de las superficies divisorias y una luz fuente se generan en una parte correspondiente a la imagen divisoria por la unidad 12 de cálculo de cantidad de corrección de representación tridimensional. En consecuencia, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional puede usar una DNN de pequeña escala. Por lo tanto, sólo se requiere un cálculo pequeño para la unidad 12 de cálculo de cantidad de corrección de representación tridimensional y el entrenamiento de la DNN se realiza con un cálculo pequeño.

En la Realización 2, para el entrenamiento de la DNN usada en la unidad 12 de cálculo de la cantidad de corrección de representación tridimensional, los datos de entrenamiento en la Realización 2 se generan como un par de la imagen divisoria y la cantidad dR de corrección de las superficies DS(i, j) divisorias y la fuente o las fuentes LS(i) de luz correspondientes a la imagen divisoria, a partir de los datos de entrenamiento de la Realización 1 (un par de imágenes de error y el valor de corrección), y con estos datos de entrenamiento se realiza el entrenamiento de la DNN.

Realización 3.

En el sistema generador de representación tridimensional de la Realización 3, la representación R tridimensional se genera de la manera antes mencionada para cada fotograma de las imágenes fotográficas reales en imágenes continuas (es decir, un video) fotografiadas a lo largo de una serie temporal por las cámaras 1L y 1R. Por tanto, la representación R tridimensional cambia con el tiempo a lo largo de imágenes fotográficas reales de fotogramas continuos.

Específicamente, en la Realización 3, la unidad 11 de cálculo de errores, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional, la unidad 13 de cálculo de representación tridimensional y la unidad 14 de observación virtual de representación tridimensional realizan la generación de la imagen de error, la generación de la cantidad dR de corrección, la corrección de la representación R tridimensional, y la generación de imágenes fotográficas virtuales a partir de la representación tridimensional R respectivamente, para imágenes fotográficas reales de cada fotograma en una serie de imágenes fotográficas reales en un video.

Por lo tanto, en la Realización 3, a lo largo de una serie de tiempo, la representación tridimensional cambia con los videos. En este proceso, el clasificador 15 puede realizar la clasificación de objetos basándose en las superficies DS divisorias de cada fotograma. En este caso, la clasificación de un objeto que aparece y/o desaparece en un video se realiza a lo largo del video.

En este proceso, la unidad 16 de generación de estado inicial genera un estado inicial de la representación R tridimensional en el primer fotograma, y se establece un estado inicial de la representación tridimensional R en cada fotograma posterior para que sea igual a (a) la representación R tridimensional finalizada en el fotograma anterior o (b) una representación tridimensional estimada (por ejemplo., linealmente) a partir de las representaciones R tridimensionales (representaciones tridimensionales finalizadas en los fotogramas respectivos) en varios fotogramas anteriores (por ejemplo dos últimos fotogramas) del fotograma actual.

Otras partes de la configuración y comportamientos del sistema en la Realización 3 son idénticas o similares a las de la Realización 1 ó 2 y, por lo tanto, no se explican aquí.

Como se mencionó, en la Realización 3, la representación tridimensional cambia ligeramente de fotograma a fotograma con una pluralidad de imágenes fotográficas reales a lo largo de una serie temporal de un video.

Realización 4.

La Figura 8 muestra un diagrama de bloques que indica una configuración de un sistema generador de representación tridimensional en la Realización 4 de la presente invención. En el sistema generador de representación tridimensional de la Realización 4, (a) un sensor 51 adicional que no sea una de la pluralidad de cámaras 1L y 1R obtiene un valor de medición del sensor real, (b) un sensor virtual obtiene un valor de medición de la unidad 61 de sensor virtual en la unidad 14 de observación virtual de representación tridimensional, (c) se calculan los datos de error del sensor entre el valor de medición del sensor real y el valor de medición del sensor virtual, y (d) el valor de corrección de la representación tridimensional se determina con teniendo en cuenta los datos de error del sensor.

Específicamente, en la Realización 4, la unidad 11 de cálculo de error genera no solo las imágenes de error sino también los datos de error del sensor entre un valor de medición del sensor real obtenido por un sensor 51 adicional predeterminado que observa un entorno que incluye al sujeto fotografiado y un valor de medición del sensor virtual obtenido por la unidad 14 de observación virtual de representación tridimensional; y en la Realización 4, la unidad 12 de cálculo de cantidad de corrección de representación tridimensional genera una cantidad de corrección dR de la representación tridimensional tal que la cantidad dR de corrección corresponde tanto a las imágenes de error como a los datos de error del sensor.

Además, en la Realización 4, la unidad 14 de observación virtual de representación tridimensional incluye la unidad 61 de sensor virtual, y la unidad 61 de sensor virtual se obtiene simulando el sensor 51 adicional de modo que la unidad de sensor virtual tiene la misma característica de medición que una . característica de medición del sensor 51 adicional; y la unidad 14 de observación virtual de representación tridimensional genera el valor de medición del sensor virtual de manera que el valor de medición del sensor virtual se obtiene observando la representación tridimensional usando la unidad 61 de sensor virtual.

En esta realización, el sensor 51 adicional incluye un sensor RADAR o un sensor LiDAR (Localización y Detección por Luz). En este caso, el sensor 51 adicional genera una imagen de mapa de profundidad real. En este caso, la unidad 61 de sensor virtual observa virtualmente la representación R tridimensional (las superficies DS(1, 1)..., DS(Nx, Ny) divisorias) usando la misma función que una función del sensor RADAR o el sensor LiDAR, y por lo tanto genera una imagen de mapa de profundidad virtual. En este caso, los datos de error del sensor son una imagen de error entre la imagen del mapa de profundidad real y la imagen del mapa de profundidad virtual.

En la Realización 4, si la unidad 16 generadora de estado inicial genera un estado inicial de la representación R tridimensional, entonces los valores reales de medición del sensor también se usan como entrada de la unidad 16 generadora de estado inicial junto con las imágenes fotográficas reales. Además, en la Realización 4, con respecto al entrenamiento de la DNN usada en la unidad 12 de cálculo de cantidad de corrección de representación tridimensional, el valor de medición del sensor virtual generado por la unidad 61 de sensor virtual se suma a la entrada en los datos de entrenamiento en la Realización 1 (es decir, un par de imágenes de error y la cantidad de corrección), y la DNN se entrena con los datos de entrenamiento.

Otras partes de la configuración y comportamientos del sistema en la Realización 4 son idénticas o similares a las de cualquiera de las Realizaciones 1 a 3 y, por lo tanto, no se explican aquí.

Como se mencionó, en la Realización 4, se incluye en la representación tridimensional un fenómeno que puede ser medido por el sensor 51 adicional. Además, si se agrega un sensor RADAR o un sensor LiDAR como sensor 51 adicional, entonces se determina con mayor precisión una posición en la dirección de profundidad (dirección Z) de la superficie DS(i, j) divisoria porque (a) la información de paralaje por la pluralidad de cámaras 1L y 1R y (b) el mapa de profundidad por el sensor RADAR o el sensor LiDAR se usan como entrada de la unidad 12 de cálculo de cantidad de corrección de representación tridimensional.

Debe entenderse que varios cambios y modificaciones a las realizaciones descritas en este documento serán evidentes para los expertos en la técnica. Dichos cambios y modificaciones pueden realizarse sin apartarse del espíritu y alcance del presente tema y sin disminuir las ventajas previstas. Por lo tanto, se pretende que dichos cambios y modificaciones estén cubiertos por las reivindicaciones adjuntas.

Por ejemplo, en cada una de las realizaciones antes mencionadas, las superficies DS(1, 1), ..., DS(Nx, Ny) divisorias de la representación R tridimensional se expresan con el conjunto S(1, 1 ), ..., S(Nx, Ny) de valores de propiedad mencionado anteriormente, respectivamente. De manera alternativa, se pueden aplicar otras expresiones de datos. Por ejemplo, la pluralidad de superficies divisorias pueden disponerse tridimensionalmente de forma fija en un intervalo predeterminado (es decir, los valores de las coordenadas XYZ de las superficies divisorias son fijos), se puede agregar un estado de encendido/apagado (existencia/no existencia) de cada superficie divisoria como un valor de propiedad, y este valor de propiedad puede controlarse con la cantidad dR de corrección.

Además, en cualquiera de las realizaciones antes mencionadas, la forma y el tamaño de la superficie DS(i, j) divisoria no se limitan a los que se muestran en las figuras, y puede configurarse de manera que la forma y el tamaño de la superficie DS(i, j) divisoria se establecen como valores de propiedad modificables. Además, en cualquiera de las realizaciones antes mencionadas, las superficies DS(i, j) divisorias pueden deformarse y convertirse en polígonos de modo que los polígonos adyacentes entre sí se conecten entre sí. Además, en cualquiera de las realizaciones antes mencionadas, si existe la posibilidad de que se incluya una fuente de luz en un campo visual (es decir, un ángulo de visión) de la imagen fotográfica real, entonces la fuente LS(i) de luz antes mencionada se puede configurar de manera que la fuente LS(i) de luz se puede disponer en un campo visual (es decir, ángulo de visión) de la imagen fotográfica virtual, y la fuente de luz se puede expresar con una superficie divisoria en la representación tridimensional. Si la fuente de luz se expresa con una superficie divisoria, entonces la superficie divisoria tiene la misma propiedad que la propiedad de la fuente de luz (es decir, datos característicos). Además, en cualquiera de las realizaciones antes mencionadas, se establece una propiedad tal como el factor de reflexión, el factor de transmisión y/o la cantidad de luz emitida para cada rango de longitud de onda parcial en el que se divide el rango de longitud de onda específico. De manera alternativa, una característica óptica (factor de reflexión, factor de transmisión, cantidad de luz emitida o similar) puede expresarse acumulando una pluralidad de distribuciones específicas (por ejemplo, una distribución gaussiana) cuyos centros están ubicados en una pluralidad de longitudes de onda específicas, respectivamente. En tal caso, en el conjunto de valores de propiedad antes mencionado, por ejemplo, se usan como valores de propiedad una intensidad en la longitud de onda específica, un valor de varianza y similares en cada una de las distribuciones específicas.

Además, en la Realización 4, como sensor 51 adicional, se puede instalar un sensor de sonido, como un micrófono, y se pueden agregar una o más fuentes SS(i) de sonido en la representación tridimensional. En tal caso, se establece una unidad 61 de sensor virtual correspondiente al sensor de sonido, y se observa una señal de sonido virtual como la medición del sensor virtual. Además, en tal caso, el sensor de sonido obtiene una señal de sonido real de un período de tiempo predeterminado, y se generan datos de error entre la señal de sonido real de un período de tiempo predeterminado y la señal de sonido virtual de un período de tiempo predeterminado, y los datos de error se usan también como datos de entrada de la unidad 12 de cálculo de cantidad de corrección de representación tridimensional.

Además, en cualquiera de las realizaciones antes mencionadas, el valor de propiedad de la superficie DS(i, j) divisoria puede estar limitado en base a los datos de clasificación obtenidos por el clasificador 15. Por ejemplo, si una superficie DS(i, j) divisoria se clasifica en un objeto no transparente a la luz especificado por los datos de clasificación, el factor Tr(i) de transmisión de esta superficie DS(i, j) divisoria no puede corregirse y puede fijarse como cero.

Además, en cualquiera de las realizaciones mencionadas anteriormente, se puede agregar un tamaño y/o una forma de fuente LS(i) de luz en el conjunto L(i) de valores de propiedad de la fuente LS(i) de luz y se puede corregir con la cantidad dR de corrección.

Además, en cualquiera de las realizaciones antes mencionadas, si se realiza un proceso de imagen predeterminado para las imágenes fotográficas reales, entonces se realiza el mismo proceso de imagen para las imágenes fotográficas virtuales.

Además, en cualquiera de las realizaciones antes mencionadas, cuando se usa la DNN, se puede realizar un preproceso como la normalización para los datos de entrada de la DNN, si es necesario.

Además, en cualquiera de las realizaciones mencionadas anteriormente, la representación R tridimensional (en particular, las superficies divisorias) puede usarse para otro propósito que los datos de entrada del clasificador 15, y por ejemplo, usando las superficies divisorias, un objeto en las imágenes fotográficas reales se puede mostrar en tres dimensiones.

Además, en cualquiera de las realizaciones mencionadas anteriormente, las cámaras 1L y 1R pueden ser cámaras de a bordo instaladas en un vehículo móvil (automóvil, tren ferroviario o similar), y los datos de clasificación mencionados pueden usarse para la conducción automática del vehículo móvil.

Claims

REIVINDICACIONES

1. Un sistema generador de representación tridimensional, que comprende:

una unidad de cálculo de error;

una unidad de cálculo de cantidad de corrección de representación tridimensional;

una unidad de cálculo de representación tridimensional configurada para generar una representación tridimensional correspondiente a imágenes fotográficas reales obtenidas de un sujeto fotografiado por una pluralidad de cámaras predeterminadas; y

una unidad de observación virtual de representación tridimensional;

en donde la unidad de cálculo de errores genera imágenes de error entre las imágenes fotográficas reales y las imágenes fotográficas virtuales obtenidas por la unidad de observación virtual de representación tridimensional;

la unidad de cálculo de la cantidad de corrección de la representación tridimensional genera una cantidad de corrección de representación tridimensional, correspondiente la cantidad de corrección a las imágenes de error;

la unidad de cálculo de la representación tridimensional corrige la representación tridimensional de acuerdo con la cantidad de corrección generada por la unidad de cálculo de cantidad de corrección de representación tridimensional;

la unidad de observación virtual de representación tridimensional comprende una unidad de renderizado configurada para realizar un proceso de renderizado de la representación tridimensional y generar así las imágenes fotográficas virtuales, obtenidas las imágenes fotográficas virtuales al fotografiar la representación tridimensional usando cámaras virtuales correspondientes a la cámaras;

la representación tridimensional incluye una pluralidad de superficies divisorias dispuestas en un espacio tridimensional; y

la cantidad de corrección de representación tridimensional incluye cantidades de corrección de posiciones y direcciones de la pluralidad de superficies divisorias;

caracterizado por que

la unidad de cálculo de error, la unidad de cálculo de cantidad de corrección de representación tridimensional, la unidad de cálculo de representación tridimensional y la unidad de observación virtual de representación tridimensional realizan la generación de la imagen de error, la generación de cantidad de corrección de representación tridimensional, la corrección de representación tridimensional y la generación de imágenes fotográficas virtuales a partir de la representación tridimensional respectivamente para las imágenes fotográficas reales de cada fotograma en una serie de imágenes fotográficas reales en un video; y un estado inicial de la representación tridimensional de un fotograma actual es una representación tridimensional estimada a partir de las representaciones tridimensionales de una pluralidad de fotogramas pasados antes del fotograma actual; y

la unidad de cálculo de errores genera datos de error de sensor entre un valor de medición de sensor real obtenido por un sensor adicional predeterminado y un valor de medición de sensor virtual obtenido por la unidad de observación virtual de representación tridimensional;

el sensor adicional observa un entorno que incluye al sujeto de la fotografía;

la unidad de cálculo de cantidad de corrección de representación tridimensional genera una cantidad de corrección de representación tridimensional, la cantidad de corrección correspondiente a las imágenes de error y los datos de error del sensor; y

la unidad de observación virtual de representación tridimensional comprende una unidad de sensor virtual configurada para generar el valor de medición del sensor virtual usando un sensor adicional virtual correspondiente al sensor adicional de tal manera que el sensor adicional virtual observa la representación tridimensional y por lo tanto genera el valor de medición de sensor virtual.

2. El sistema generador de representación tridimensional según la reivindicación 1, en donde el sensor adicional incluye un sensor RADAR o un sensor LiDAR.