WO2021245290A1 - Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire - Google Patents

Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire Download PDF

Info

Publication number
WO2021245290A1
WO2021245290A1 PCT/EP2021/065168 EP2021065168W WO2021245290A1 WO 2021245290 A1 WO2021245290 A1 WO 2021245290A1 EP 2021065168 W EP2021065168 W EP 2021065168W WO 2021245290 A1 WO2021245290 A1 WO 2021245290A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
phase
reconstruction
images
dimensional scene
Prior art date
Application number
PCT/EP2021/065168
Other languages
English (en)
Inventor
Olivier QUERBES
Véronique QUERBES
Original Assignee
Querbes Olivier
Querbes Veronique
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Querbes Olivier, Querbes Veronique filed Critical Querbes Olivier
Publication of WO2021245290A1 publication Critical patent/WO2021245290A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates generally to computer vision (digital imaging) for the recognition or comparison of shapes, and more particularly relates to a device and a method for three-dimensional (3D) reconstruction at scale (on will also say “metric” in the present document) from two-dimensional (2D) images produced by a monocular imaging device, that is to say comprising only a single image sensor.
  • the embodiments take advantage of the progress made in deep learning architectures such as deep neural networks and convolutional neural networks (or neural networks) or convolutional neural network or even CNN (of the English “Convolutional Neural Networks”) to produce three-dimensional imaging applications from a 2D image acquired by an acquisition device comprising a single 2D image sensor.
  • the invention finds applications in various fields such as, for example, oral imaging, medical diagnostic aid (in particular in dermatology), industrial control (in particular in the automobile industry, aeronautics , etc.), entertainment, etc. These examples are not limiting. [State of the prior art]
  • the intrinsic properties of the sensors including the focal length and / or the optical center, in particular
  • their extrinsic properties in particular the relative position of the sensors between them
  • Document WO 2019/174377 A1 discloses an overall monocular 3D reconstruction method of a scene, using multi-view stereoscopy with the determination of the positions of each image, then the generation of a depth map per image via a convolutional neural network (or neural network) or convolutional neural network (CNN), and the projection into space to make a dense reconstruction.
  • a convolutional neural network or neural network
  • CNN convolutional neural network
  • the technique described does not address the notion of a metric image, as the reconstructions produced are not to scale. Indeed, the method generates for each image a depth map ("Depth map" in English, which is a form of 2D representation of reconstructed 3D information, corresponding to the portion of the 3D scene reflected in the image.
  • CN 108765479 A discloses the use of a monocular video sequence to estimate a depth map at a given position, and the use of the next depth map to improve the first depth map. This technique does not, however, provide full 3D reconstruction, the objective being only to improve the depth map.
  • the method of training is not discussed since the document describes the use of a ready-made CNN, already trained on the basis of images unrelated to the intended application. Furthermore, the metric quality of the images produced is not even mentioned.
  • the document CN 108615244 A discloses a technical teaching comparable to that disclosed by the two documents above, with the objective of obtaining a depth map that is as precise as possible for each image. It does not evoke the metric aspect of the images produced, and does not offer 3D reconstruction.
  • Document CN 109087349 A discloses the use of a monocular video, converted into a point cloud via a conventional multi-stereoscopy algorithm. views. Each image is used as an input to a CNN with the part of the point cloud which projects onto it. These two inputs are used for training in order to create the most accurate output depth map possible.
  • this document does not propose a total 3D reconstruction either, the objective being again only to improve the depth map.
  • the metric quality of the images produced is not mentioned either.
  • CN 109146980 A discloses the use of a cell phone monocular sensor in cooperation with the accelerometer / gyroscope, recalibration and estimation of certain optical parameters in order to be able to estimate the metric depth for any pixel.
  • the metric aspect is calculated by calibration, without any notion of deep learning.
  • this document does not propose a 3D reconstruction either.
  • the invention provides a device and a method capable of overcoming the drawbacks of the aforementioned prior art.
  • the invention indeed addresses these drawbacks by proposing a solution for learning a CNN in a semi-supervised manner, capable of generating scale depth maps for any 2D image under the following two assumptions: - 2D images used in the prediction phase (i.e., during the final use of the device for 3D reconstruction) are used with 2D sensors similar in their intrinsic characteristics (which include for example focal length, optical center, distortion ) those that were used to generate the CNN training data; and - the 3D scenes to be reconstructed in the final device are preferably similar to those imaged for the purpose of training the CNN. For example, designing a monocular device for metric skin lesion reconstruction, the images used when learning CNN would all be images showing healthy or damaged skin tissue, and the device will not be suitable for a another task, for example the reconstruction of furniture elements in a house.
  • a first aspect of the invention provides a method of producing a 3D reconstruction on the scale of a three-dimensional scene using a monocular image acquisition device, comprising:
  • a training phase of a deep learning architecture comprising:
  • training data suitable for learning the deep learning architecture
  • said training data comprising pairs of associated data, said associated data comprising for each pair of data, on the one hand, a depth map generated from a 3D reconstruction of a three-dimensional scene belonging to a given semantic class, obtained by multi-view stereoscopy on the basis of at least two 2D images of said three-dimensional scene captured under viewing angles respective by one or more intrinsically calibrated image sensors and possibly extrinsically, as well as, on the other hand, one of said 2D images of the three-dimensional scene; and,
  • the acquisition by the monocular image acquisition device with a single image sensor intrinsically calibrated and having the same intrinsic characteristics as the image sensor (s) used in the training phase, of at at least one 2D image of a three-dimensional scene of interest, of the same semantic nature as the three-dimensional scenes concerned by the acquisition of images for each pair of associated data generated during the training phase;
  • the device produces all the time depth maps on the same scale, which is in this case the real scale, therefore the non-knowledge of the real scale. and the drop in precision that is inherent in the solution described in document WO 2019/174377 A1, for example, is not incurred.
  • the invention can implement multi-view stereoscopy, but it can also be dispensed with by operating, where appropriate, with a single 2D image sensor, that is to say say with a 2D image acquisition device (or 2D imager) that is monocular.
  • the deep learning architecture can be a convolutional neural network
  • the 3D reconstruction can be carried out, in the prediction phase, completely by generating a depth map from a single 2D image of the three-dimensional scene of interest acquired by the monocular image acquisition device in photo mode;
  • the 3D reconstruction can be performed incrementally by generating a series of partial 3D reconstructions from a series of respective 2D images of the three-dimensional scene of interest acquired by the device. acquisition of a monocular image in video mode, and iterative compilation of said series of partial 3D reconstructions into a general 3D reconstruction;
  • the compilation of the series of partial depth maps into a general depth map can include, at each iteration except the first iteration, a registration of the partial 3D reconstructions in order to iteratively minimize the distance between the respective point clouds of the 3D reconstruction general and of each current partial 3D reconstruction; and or
  • the generation of training data can comprise the acquisition of 2D image n-tuples of each three-dimensional scene, where n is an integer strictly greater than unity, by a device d 'binocular image acquisition having a single image sensor intrinsically calibrated and optical means calibrated with the image sensor allowing the acquisition by said binocular image acquisition device, successively, of at least two images of the same three-dimensional scene from different viewing angles.
  • a second aspect of the invention relates to a device for producing a 3D reconstruction on the scale of a three-dimensional scene of interest having means suitable for the implementation of the prediction phase of the method according to the first aspect.
  • the device includes: - a monocular image acquisition device, comprising a single intrinsically calibrated 2D image sensor and having the same intrinsic characteristics as the image sensor (s) used in the training phase, for the acquisition of a or several 2D images of the three-dimensional scene of interest in photo mode or video mode, respectively;
  • an information storage system adapted to store the deep learning architecture, once trained with the learning data in the learning phase
  • - a computing unit configured to perform all the steps of the prediction phase applied to the 2D image or 2D images acquired by the monocular image acquisition device.
  • a third aspect of the invention relates to a device for training a deep learning architecture having means suitable for implementing the learning phase of the method according to the first aspect.
  • the deep learning architecture can be a convolutional neural network.
  • the device includes:
  • a binocular image acquisition device having one or more intrinsically and possibly extrinsically calibrated image sensors, for capturing at least two 2D images from respective viewing angles, of a three-dimensional scene belonging to a semantic class given;
  • a calculation unit configured to perform all the steps of the learning phase applied to the 2D images acquired by the binocular image acquisition device
  • an information storage system adapted to store the deep learning architecture in training with the training data during the learning phase.
  • a fourth aspect of the invention relates to a computer program comprising instructions which, when the computer program is loaded into the memory of a computer and is executed by a processor of said computer, cause the implementation by the computer of all the steps of the prediction phase of the method according to the first aspect, by a device according to the second aspect.
  • a fifth and last aspect of the invention relates to a tangible recording medium, readable by a computer, on which is recorded in a non-transient manner deep learning architecture generated by the implementation of the phase learning the method according to the first aspect and suitable for the implementation of the prediction phase of the method.
  • This fifth aspect relates more particularly to a tangible recording medium, readable by a computer, on which is recorded in a non-transient manner the deep learning architecture generated by the implementation of all the steps of the learning phase. of the method according to the first aspect by a device according to the third aspect.
  • the deep learning architecture can be a convolutional neural network.
  • FIG. 1 is a schematic illustration of a method of 3D reconstruction to scale according to embodiments of the invention, comprising a training phase consisting in training a CNN with training data generated. from n-tuples of 2D images obtained by intrinsically and extrinsically calibrated image sensors, and a prediction phase making it possible to produce 3D reconstructions using said CNN and from a 2D image captured by a unique passive 2D sensor;
  • Figure 2 is a step diagram illustrating a training data generation sub-phase performed during the training phase of the method of Figure 1;
  • FIG. 3 is a diagram of steps illustrating a deep learning sub-phase of the CNN carried out during the learning phase of the method of FIG. 1, with the training data obtained during the sub-phase of Figure 2;
  • FIG. 4 is a functional diagram illustrating the use of a convolutional neural network adapted to generate a depth map from a 2D image, in a passive monocular device for reconstructing 3D images to scale. according to embodiments of the second aspect of the invention; and, [Fig. 5] Figure 5 is a functional block diagram illustrating an architecture of CNN that may be used in embodiments of the invention.
  • Embodiments of the invention will be described in the non-limiting context of the design of a three-dimensional (3D), to scale, monocular reconstruction device for the oral health field.
  • a monocular intraoral scanner in order to generate reconstructed 3D surfaces, from 2D images captured by a single 2D imager, in order to offer digital solutions to the dental practitioner for prosthetic operations (confections crown, bridge, etc.), orthodontics (dental realignment splint designs, etc.), for example.
  • the goal of any three-dimensional reconstruction (or 3D reconstruction) processing is to obtain the three-dimensional points corresponding to the reality of the scene.
  • the first level of this hierarchy is projective reconstruction.
  • the reconstruction is faithful to reality except for a projective transformation.
  • This type of transformation is represented by a non-singular square matrix of size 4 in three-dimensional space. Due to the projection, this transformation is defined up to a scale factor. It therefore has 15 degrees of freedom. It is possible to obtain the projective reconstruction from a set of correspondences between two views (or 2D images) thanks to a fundamental matrix decomposition.
  • the directly higher level is the affine reconstruction. It is faithful to reality except for an affine transformation. Such a transformation has 12 degrees of freedom. To pass from the projective level to the affine level, it is necessary to restore the parallelism. This requires the determination of a particular plan. In projective space, it is the plane defined by the set of points for which the scale factor of the homogeneous coordinates is zero. This therefore corresponds to the set of points of “intersection” of parallel lines. That is to say the vanishing point located at infinity. It is then enough to determine the coordinates of the plane containing the vanishing points then to estimate the projective transformation which will apply it to its canonical position. Once the coordinates of the plane have been determined in space projective, the transformation is in the form of a matrix. Only distances in the same direction can be measured on an affine 3D reconstruction.
  • the third and last level is the metric reconstruction. It consists in restoring the angles between the lines of the shapes of the objects in the image, during the reconstruction. This type of reconstruction is faithful to the real scene with one similarity. Similarities are compositions of rotations (3 degrees of freedom), translations (3 degrees of freedom) and homotheties (1 degree of freedom). They therefore have 7 degrees of freedom. By convention, we denote by R the rotation matrix, T the translation vector, and H the scaling factor of the scaling. To enable a metric reconstruction, it is necessary to identify a particular conic W called the absolute conic. To go from an affine reconstruction to a metric reconstruction, we must determine the affine transformation which will place the absolute conic in its canonical position.
  • the scale factor H can be known, simply, by having a reference distance in the scene.
  • the metric reconstruction is, in this particular case, also called Euclidean reconstruction, but this is only a special case of metric reconstruction in which a reference distance in the scene is known because to pass from a metric reconstruction in the strict sense in what is called a Euclidean reconstruction, it suffices to carry out a scaling.
  • metric In the context of the invention, we are only interested in a metric reconstruction in which the scale factor is known (or Euclidean reconstruction). We also speak, therefore, of a 3D reconstruction to scale.
  • the terms and expressions “metric”, “to scale” or “to real scale”, used with reference to a 3D reconstruction, are therefore to be considered as being synonymous with one another in the context of this present document. description.
  • the metric 3D reconstruction within the meaning of the invention, or “to scale” is known except for a rigid transformation, that is to say the composition of a rotation R (3 degrees of freedom) and of a translation T (3 degrees of freedom). This transformation therefore has only 6 degrees of freedom.
  • An "image”, or “view”, or even “scan”, consists of a set of points of the real three-dimensional scene.
  • an image acquisition device or imaging device (for example a CCD sensor or a CMOS sensor)
  • the points concerned are the points of the real scene projected in the focal plane of the 2D sensor used to acquire the 2D image, and are defined by the pixels of the 2D image.
  • this term designates the product or result of the 3D reconstruction processing, the points concerned being a 3D point cloud obtained by a transformation of a “depth map” (see definition given below), or by triangulation in the case of stereoscopy.
  • a point cloud defines a skeleton of the three-dimensional scene.
  • a 3D mesh of this cloud of points for example a mesh of triangulated 3D points, can define an envelope.
  • a "n-tuple" of images is a set of n images taken simultaneously by the sensor (s) of an image acquisition device (or imaging device).
  • the imaging device has two sensors, making it possible to generate a doublet (i.e., a 2-tuple) of images of the same three-dimensional scene respectively acquired simultaneously by each of these two sensors. But he can have three, four, five, etc. sensors allowing to acquire a triplet (i.e., a 3-tuple), a quadruplet (i.e., a 4-tuple), a quintuplet (i.e., a 5-tuple), etc.
  • the device may also include only a single sensor associated with an arrangement of optical means based on calibrated mirror (s) and possibly prism (s), making it possible to successively acquire several images of the same three-dimensional scene seen under. respective different viewing angles.
  • a "monocular" image acquisition device is a device having only a single image sensor and capable of acquiring images of a three-dimensional scene only under a single viewing angle only at a given device position.
  • a "binocular" image acquisition device is a device having one or more image sensors and capable of acquiring images of the same three-dimensional scene under different respective viewing angles at a position. of the given device. If the device only includes a single image sensor, it is associated with optical means (mirror (s) and / or prism (s)) of so as to be capable of successively acquiring several images of the same three-dimensional scene seen from different angles of view.
  • optical means mirror (s) and / or prism (s)
  • the "intrinsic characteristics" of a sensor are the focal length, the optical center, and the distortion of the sensor.
  • the “extrinsic characteristics” of a sensor define the position and orientation of the sensor relative to another sensor.
  • a “scale” is the ratio between the measurement of an object in a real scene and the corresponding measurement in its 3D representation.
  • a 3D reconstruction is said to be “to scale” when this ratio is equal to unity.
  • a measurement carried out in the 3D reconstruction therefore gives a value conforming to the same measurement which would be carried out in the real 3D scene. This is very useful for users, especially practitioners in dermatology or dental surgery, for example.
  • a "depth map” associated with a 2D image is a form of 2D representation of the reconstructed 3D information, corresponding to the portion of the 3D scene reprojected in the 2D image.
  • this is a set of values, coded in the form of levels (or shades) of gray, respectively associated with each pixel p, of the 2D image: plus the distance between the point of the three-dimensional scene and the plane of the 2D image is large, and the darker the pixel.
  • a “metric depth map” or “scale depth map” associated with a 2D image is a 2D representation of the scale 3D information which has been reconstructed from (in particular) said 2D image, said 2D representation being generated by reprojection of the 3D reconstruction in the 2D space of the sensor which served to capture said 2D image.
  • CNN is made up of two types of artificial neurons, arranged in “strata” or “layers” successively processing information:
  • processing neurons which process a limited portion of the image (called the “receptive field”) through a convolution function; and, - the (total or partial) pooling neurons of the outputs, known as “pooling” neurons (which means “grouping” or “pooling”, in English), which allow information to be compressed by reducing the size of the intermediate image (often by downsampling).
  • All the outputs of a processing layer make it possible to reconstitute an intermediate image, which serves as a basis for the following layer.
  • a non-linear and punctual corrective treatment can be applied between each layer to improve the relevance of the result.
  • CNNs are currently experiencing wide applications in the field of image recognition.
  • FIG. 1 is a simplified diagram illustrating the different phases of the process according to embodiments of the invention. As shown, the process essentially comprises two phases, namely:
  • a learning phase 210 which is itself divided into a training data generation sub-phase 211, on the one hand, and a deep learning sub-phase, on the other hand; as well as,
  • a binocular image acquisition device 12 comprising at least two image sensors, for example two imaging sensors Passive 2D, intrinsically and extrinsically calibrated.
  • image sensors for example two imaging sensors Passive 2D
  • the sensor and its associated optical device are by nature calibrated extrinsically, due to the a priori knowledge of the arrangement of the optical elements with respect to the image sensor.
  • the latter is used in combination with optical means intrinsically calibrated and extrinsically calibrated with said image sensor, which allows the acquisition by the device of binocular image acquisition 12 thus formed, successively, of at least two images of the same three-dimensional scene from different viewing angles.
  • an image acquisition device 11 is used with a single intrinsically calibrated sensor (/.e., Whose focal length, optical center and distortion are known ), and identical to those of the image acquisition device 12 used in the first phase 210.
  • This image acquisition device 11 is therefore advantageously less expensive, and also less bulky than the device 12 used in the first phase 210. It is thus better suited to the manufacture and sale of 3D image reconstruction devices at industrial scale, for commercial uses. Its smaller size also allows its use in oral or dental surgery applications, for example, for taking images directly in the mouth of a patient.
  • the learning phase 210 is itself split into two sub-phases:
  • a deep learning sub-phase 212 adapted to train a convolutional neural network (CNN) using a database 50 containing the learning data generated during the sub-phase 211.
  • CNN convolutional neural network
  • the device 12 for acquiring images with two (or more) 2D image sensors is used to reconstruct, by conventional stereoscopy, a plurality of three-dimensional scenes belonging to a class given semantics. These 3D reconstructions are generated from a series of pairs of 2D images acquired by the device 12. These pairs of 2D images are, each time, views of the three-dimensional scene taken from different respective angles. As each of the reconstructions progresses, each 2D image that participated in the reconstruction is recorded, in association with the corresponding depth map which is generated by multi-view stereoscopy from the pairs of 2D images.
  • a deep neural network 50 or CNN network learns to associate with an image 25 among the 2D images acquired by the device 12 during the sub-phase 211 of the learning phase 210, its corresponding 2D metric depth map 35 (being reminded that “metric” wants say “to scale” in the context of the present description).
  • this CNN network When this CNN network has finished its training, it knows how to produce, for a 2D image of any three-dimensional scene of any interest (acquired with a monocular image sensor 11 having the same intrinsic characteristics as the image sensor 12), a metric depth map, provided that the image has been acquired with a sensor having the same intrinsic properties (focal length, optical center, and distortion) as the sensors used during the generation phase.
  • the other restriction is that CNN does not know give good results only for similar three-dimensional scenes, i.e. belonging to the same semantic class, to those encountered during sub-phase 311 of generation of training data (at least in theory, CNN networks having by nature a strong ability to generalize their learning).
  • the device for generating reconstructed 3D images uses a single passive 2D sensor 11, which images a three-dimensional scene of interest, for example an area of the skin of a patient or part of a patient's dental arch.
  • a computing unit houses the convolutional neural network 50 which was trained during the second sub-phase 212 of the first phase 210.
  • This CNN then makes it possible to provide a metric depth map 35 associated with each image. 2D acquired 25.
  • This device is therefore able to reconstruct a 3D surface on the scale of a three-dimensional scene of interest from a single passive 2D sensor acquiring 2D images in “one-shot” mode (/. e., in photo mode) or in burst mode (/.e., in video mode).
  • FIG. 2 The figure schematically illustrates one way of generating metric training data from the image tuples acquired by the binocular 2D image acquisition device (or imager) 12 of Figure 1.
  • step 221 at least two 2D images denoted 21 and 22, are acquired, for example simultaneously, by each of the two sensors, respectively, of the imager 12 with two intrinsically calibrated sensors and extrinsically. These two images form a couplet 21, 22 of 2D images of the same 3D scene. More than two images can be acquired, simultaneously or successively, depending on the composition of the imager 12, that is to say depending on the number of sensors it incorporates.
  • image tuples such as image couplet 21, 22 are collected, where n is an integer strictly greater than unity. These n images have in common that they are images
  • step 222 an algorithm 622 of the multi-view stereoscopy type is used, which is applied to all of the image couplets 21, 22 or (in the more general case) on the set of 2D image tuples.
  • This type of algorithm is known in the literature and a good number of libraries are accessible to those skilled in the art to obtain them (see the article by RA Newcombe, SJ Lovegrove and AJ Davison, "DTAM: Dense tracking and mapping in real-time ", 2011 International ConfInter Vision, Barcelona, 2011, pp.
  • the 3D model obtained 23 is not metric, and therefore the depth map 25 generated. at step 224 either.
  • an algorithm such as the multi-view stereoscopy algorithm 622 also generates as an output the relative position of the imager 12 with respect to the virtual 3D scene (that is to say the 3D scene modeled by the model 23) at all the times when this imager has acquired one of the 2D image tuple used to generate the 3D model concerned 23.
  • the relative positions of the sensors in the virtual 3D scene are used, in step 223, by a repositioning algorithm 623 to find the metric positions of the sensors.
  • a repositioning algorithm 623 to find the metric positions of the sensors.
  • the positions of the sensors given by the algorithm 622 are already metric.
  • the algorithm 623 applies exactly the same resizing to the positions of the sensors in order to give them a metric positioning. At the output of algorithm 623, we therefore obtain metric positions 21a and 22a of the sensors having produced the 2D images, respectively 21 and 22.
  • a map can be generated in step 224 of metric depth (ie, at the real scale), referenced 225, for any 2D image supplied as an input to the algorithm 622 used in said step 222.
  • pairs 521 and 522 hereinafter called learning pairs, each composed of a 2D image such as the images 21 and 22 produced in step 221 by the imager 12, of a on the one hand, and a corresponding metric depth map 25, on the other hand.
  • learning pairs each composed of a 2D image such as the images 21 and 22 produced in step 221 by the imager 12, of a on the one hand, and a corresponding metric depth map 25, on the other hand.
  • Each frame 21 and 22 has its own depth map, 21b and 22b, respectively.
  • the algorithm is iterated a large number of times in order to produce a large number of such learning pairs, for example thousands or even tens of thousands of learning pairs.
  • step 225 the learning pairs 521, 522 are stored in a memory so as to form a learning database 50.
  • This database 50 is suitable for training a network deep neurons (CNN), as will now be described with reference to FIG. 3.
  • CNN network deep neurons
  • FIG. 3 schematically illustrates the progress of the deep learning sub-phase 212 of FIG. 2.
  • This sub-phase carries out the design of a CNN, referenced 60, which can predict a metric depth map 351 from a single 2D image of any 3D scene acquired by a monocular acquisition device, that is to say comprising only a single image sensor, as is the case with the imager 11 of FIG. 1.
  • the solution proposed according to the embodiments of the invention is a solution for training the convolutional neural network 60 in a semi-supervised manner.
  • semi-supervision refers to the fact that a separate process has been set up to generate training data: there is therefore a “manual” transfer of data from one algorithm to another, ie from the sub-phase 211 to sub-phase 212 of the learning phase 210 of FIG. 1 but, as those skilled in the art will appreciate, the generation of training data remains automatic.
  • non-supervision refers to the fact that the network would find it alone, by analyzing input data, inference rules making it possible to produce depth maps, which is difficult to imagine.
  • total supervision refers to giving training data not from an automatic process but from a fully manual process, for example by creating depth maps "by hand" by physical measurement, which is not the case here either.
  • the semi-supervised learning according to the embodiments is carried out from the learning pairs stored in the learning database 50 and which were produced during the sub-phase 212 of generating the learning data as described above with reference to FIG. 2.
  • This learning is implemented by a suitable computer, for example a graphics processor (or GPU, standing for “Graphical Processing Unit”) capable of performing large amounts of computation.
  • the neural network 60 is capable of generating, in the prediction phase 220 of the method, metric depth maps 351 for any 2D image. This is possible under the condition that the 2D images used in the prediction phase are used with sensors similar in their intrinsic characteristics (ie, that they have the same focal length, the same optical center, and the same distortion) to those which were used during sub-phase 211 to generate the training data ⁇ ie drive pairs such as pairs 521, 522 described with reference to Figure 2) of the neural network 60.
  • the 3D scenes to be reconstructed by the commercial device in the prediction phase 220 are similar to those imaged in the learning phase 210, and more particularly in the sub-phase 211 for generating the training data. , in order to train the CNN 60.
  • the images used during the training of the CNN are preferably all images showing healthy skin tissue or with lesions.
  • the device obtained would be poorly suited for another task, for example the reconstruction of elements of furniture in a house.
  • This notion of similarity between the 2D images used in the prediction phase 220 with the 2D images used in the training data generation sub-phase 211 is a relative notion, given the learning characteristics of neural networks. convolutional.
  • images must be of the same semantic class, i.e. represent scenes of the same nature, ie, showing similar objects in the image (for example in both faces, or skin lesions, or dental arches of patients, or identical or similar mechanical parts, etc.).
  • FIG. 4 very schematically shows a monocular imaging device 40.
  • the device 40 comprises an image capture device 11 (or imager) monocular, that is to say comprising only a single image sensor, like the device 11 shown in Figure 1 to illustrate the prediction phase 220, for example a passive sensor. It can be a camera, or a camera, a sensor in CMOS technology or CCD technology, operating in black and white or in color. A static 3D scene can be imaged by the monocular image capture device. This device can acquire 2D images in photography mode (a single 2D image at a time) or in video mode (several 2D images over time at any frequency).
  • the device 40 comprises a computing unit 41, for example a microprocessor of a computer ("Central Processing Unit") or a group of processors for example within a graphics card (GPU), configured to execute a digital data processing software.
  • a computing unit 41 for example a microprocessor of a computer ("Central Processing Unit") or a group of processors for example within a graphics card (GPU), configured to execute a digital data processing software.
  • CPU Central Processing Unit
  • GPU graphics card
  • the device 40 further comprises a digital information storage system 42, for example a hard disk in SSD technology (standing for “solid-state drive”) or the like, suitable for permanently storing the network. of convolutional neurons 60 generated during the learning phase 210 of the method, and more particularly during the sub-phase 212.
  • a digital information storage system 42 for example a hard disk in SSD technology (standing for “solid-state drive”) or the like, suitable for permanently storing the network. of convolutional neurons 60 generated during the learning phase 210 of the method, and more particularly during the sub-phase 212.
  • the storage system can be physically included directly in the device 40, or else be deported for example to a computer or a remote computing server to which the device 40 can access by an ad-hoc communication network, for example by an intranet or by the Internet, for example via an Ethernet network or a radio communications network wireless like a 3G-LTE, 4G or 5G network, without affecting the process.
  • the information storage system 42 can be adapted to store in memory, in addition, the 2D images acquired by the device 40 during the prediction phase, as well as other data, such as the 3D reconstructions generated from said images and from the convolutional neural network 60.
  • the information storage system 42 can store the new couples formed from a 2D image and its associated 3D reconstruction as produced by the network neurons 60.
  • This data may also be collected by, or transmitted to the device manufacturer, at time intervals. This makes it possible to complete the training database, for updates of the convolutional neural network 60, either automatically or on the occasion of a complete upgrade of the software of the device 40.
  • the digital data processing implemented by the computer 41 makes it possible to transform the incoming data stream, namely the 2D images such as the image 25, into a 3D reconstruction in the form of a depth map 35.
  • it uses the convolutional neural network 60 which has been loaded by the manufacturer of the device into the information storage system 42 before the device 40 is delivered to the customer.
  • a depth map is a form of 2D representation of the reconstructed 3D information, corresponding to the portion of the 3D scene reprojected in the original 2D image.
  • This transformation of the 2D image to a depth map can be done using the convolutional neural network 60 trained as described with reference to Figure 3, with the training data generated as described with reference to figure 2.
  • a device usable for the acquisition and generation of training data as described above with reference to the step diagram of FIG. 2 can be structurally similar to the device. of FIG. 4, in that it integrates the same type of sensor (same focal length / optical center / distortion coefficients), a calculation unit and a mass storage memory.
  • the difference lies in the fact that the device of figure 2 can integrate not only one but also several sensors, which are all of the same type so as to present the same intrinsic calibration characteristics. In the case of several sensors, these sensors are furthermore calibrated extrinsically, in other words their relative positions with respect to one another is known.
  • the device 40 of FIG. 4 comprises a visual rendering unit, for example a computer screen 43 or the like, to display the reconstructions
  • the device can also include a 3D printer, to print the reconstructed 3D surface on any suitable medium.
  • the process of 3D reconstruction of a static scene from the associations between a 2D image and a depth map which are produced by the convolutional neural network 60 can be done in several ways.
  • the 3D reconstruction displayed on the screen 43 is performed entirely from a single 2D image. This is particularly the case when shooting in photo mode by the Imager 11.
  • a single 2D image generates a depth map.
  • This depth map can advantageously be transformed into a 3D reconstruction in the form of a 3D point cloud or a triangulated 3D mesh.
  • the 3D reconstruction displayed on the screen 43 is performed incrementally. This is the case of shooting in video mode, producing a sequence (or a stream) of 2D images of the 3D scene to be reconstructed.
  • each frame of the 2D image stream generates a respective associated depth map.
  • All of the depth maps thus generated can be compiled into a single general 3D reconstruction, which aggregates all of the depth maps. This aggregation of depth maps can be done in various ways, including:
  • the reconstructed 3D surface delivered by the device of FIG. 4 is a surface
  • 3D scale of the three-dimensional scene of interest can be stored in a data storage system, image processing, display or print, depending on the needs of the application.
  • CNN convolutional neural network
  • the deep learning architecture 60 is a convolutional neural network which may have a quite conventional structure.
  • This type of CNN is available in libraries known to those skilled in the art which are open access.
  • a two-dimensional image is provided in the form of an array of pixels. It has two dimensions for a grayscale image.
  • the color is represented by a third dimension, of depth 3 to represent the fundamental colors [Red, Green, Blue].
  • FIG. 5 shows a particular example of CNN, which is in fact an FCN (standing for “Fully Convolutional Network”) inspired by the article by J. Long, E. Shelhamer and T. Darrell, “Fully convolutional networks for semantic segmentation ", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston,
  • This FCN has two very distinct parts, according to an encoding / decoding architecture.
  • the first part of the encoding FCN is the convolutional part itself. It comprises the “convolutional processing layer” 51, which has a succession of filters, or “convolution cores”, applied in layers.
  • the convolutional processing layer 51 functions as an extractor of the characteristics of the 2D images admitted as input to the CNN.
  • the input image 25 is passed through the succession of convolution nuclei, each time creating a new image called a convolution map.
  • Each convolutional kernel has two convolutional layers 511 and 512, and a layer 513 for reducing the resolution of the image by a pooling operation also called a local maximum operation ("maxpooling").
  • a final convolutional layer 520 capturing the entire visual field of action of the preceding layer, and thus mimicking a fully connected layer (“fully connected” layer in English).
  • a final deconvolution layer 530 outputs a depth map which, thanks to the implementation of the embodiments, is a scale depth map.
  • the neural network works all the better in the prediction phase if one is working on a problem “close” to the initial problem on which the network has been trained.
  • CNN convolutional neural network
  • the images used in training CNN would all be images showing healthy skin tissue or showing lesions.
  • the device 40 is preferably trained with passive images of dental arches. Conversely, such a device would not be suitable for another task, for example the 3D reconstruction of furniture elements of a residential house.
  • Non-limiting examples of industrial application of the invention are as follows, in dermatology, in industrial control, or in the field of entertainment, respectively.
  • the invention makes it possible to design a dermatoscope with a single sensor capable of reconstructing skin lesions in 3D at scale. This requires first designing a dermatoscope with two sensors, to reconstruct a plurality of skin lesions in 3D by stereoscopy. Secondly, once the CNN network has been educated to reconstruct the corresponding depth maps, this CNN network can be transferred to the device. intended for commercialization, comprising only one 2D sensor in order to reduce the cost of the device.
  • the invention makes it possible, for example, to develop an application for a mobile telephone comprising a single image sensor (which is the case with the majority of current mid-range mobile telephones).
  • the application can be used to generate high-precision metric 3D reconstructions from monocular 2D images or videos of static scenes.
  • the invention proposes a design phase with two sensors identical to those present in the type of mobile phone in question, these two sensors being calibrated intrinsically and extrinsically. These two sensors are used to reconstruct a large number of static 3D scenes by stereoscopy.
  • the 3D reconstructions are then used for training the CNN network.
  • the CNN network is then transferred to the mobile device or even to a remote compute server. Subsequently, the application in the mobile device (monocular) sends any acquired 2D image to this CNN network, which then produces a metric 3D reconstruction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Il est divulgué un procédé de production d'une reconstruction 3D à l'échelle d'une scène tridimensionnelle à l'aide d'un imageur monoculaire (11), ayant une phase (210) d'entraînement d'un CNN (60) comprenant la génération (211) de couples de données d'apprentissage (50) pour le CNN avec, d'une part, une carte de profondeur générée à partir d'une reconstruction 3D d'une scène tridimensionnelle obtenue par stéréoscopie multi-vues sur la base d'au moins deux images 2D de la scène par des capteurs d'images calibrés intrinsèquement et extrinsèquement, ainsi que, d'autre part, l'une des images 2D de la scène tridimensionnelle. Dans une phase de prédiction (220), on génère une surface 3D à l'échelle de la scène d'intérêt, reconstruite sur la base d'une carte de profondeur associée (35) qui est fournie par le CNN à partir d'une image 2D acquise (25).

Description

Génération de modèles 3D à l’échelle à partir d’images 2D produites par un dispositif d’imagerie monoculaire
[Domaine technique]
[0001] La présente invention se rapporte de manière générale à la vision par ordinateur (imagerie numérique) pour la reconnaissance ou la comparaison de formes, et concerne plus particulièrement un dispositif et un procédé de reconstruction tridimensionnelle (3D) à l’échelle (on dira aussi « métrique » dans le présent document) à partir d’images bidimensionnelles (2D) produites par un dispositif d’imagerie monoculaire c’est-à-dire ne comprenant qu’un unique capteur d’image. [0002] Les modes de réalisation tirent parti des progrès réalisés dans les architectures d’apprentissage profond telles que les réseaux de neurones profonds et les réseaux de neurones (ou réseaux neuronaux) convolutifs ou réseau de neurones à convolution ou encore CNN (de l’anglais « Convolutional Neural Networks ») pour réaliser des applications d’imagerie tridimensionnelle à partir d’une image 2D acquise par un dispositif d’acquisition comprenant un capteur d’image 2D unique.
[0003] L'invention trouve des applications dans divers domaines tels que, par exemple, l’imagerie bucco-dentaire, l’aide au diagnostic médical (notamment en dermatologie), le contrôle industriel (notamment dans l’automobile, l’aéronautique, etc.), le divertissement, etc. Ces exemples ne sont pas limitatifs. [Etat de la technique antérieure]
[0004] La modélisation tridimensionnelle d’objets, ou modélisation 3D, par ordinateur est devenue indispensable dans de nombreuses applications, comme le cinéma ou les jeux vidéo, la conception et le contrôle de pièces mécaniques, ou encore la médecine. [0005] L’imagerie tridimensionnelle à partir de capteurs d’image (ou capteurs 2D) passifs a ainsi de plus en plus d’applications industrielles. Lorsqu’il s’agit de dispositifs métriques, i.e. capables de produire des modèles 3D à l’échelle à partir d’images 2D, il est nécessaire de disposer d’au moins deux capteurs d’image 2D calibrés intrinsèquement et extrinsèquement. Plus précisément, il est indispensable de connaître les propriétés intrinsèques des capteurs (dont la focale et/ou le centre optique, notamment) et leurs propriétés extrinsèques (notamment la position relative des capteurs entre eux) pour connaître l’échelle métrique du modèle produit par la stéréoscopie, et pour en tenir compte dans le traitement stéréoscopique des couples d’images 2D respectivement acquises par ces deux capteurs.
[0006] Pour de multiples raisons (coût de production, volume du dispositif, etc.), cependant, il serait utile de pouvoir produire des modèles 3D métriques à partir d’un dispositif d’acquisition ne comprenant qu’un seul et unique capteur 2D passif, ou dispositif d’imagerie monoculaire.
[0007] Le document WO 2019/174377 A1 divulgue un procédé de reconstruction 3D monoculaire global d’une scène, utilisant la stéréoscopie multi-vues avec la détermination des positions de chaque image, puis la génération d’une carte de profondeur par image via un réseau de neurones (ou neuronal) convolutif ou réseau de neurones à convolution (CNN), et la projection dans l’espace pour en faire une reconstruction dense. Toutefois la technique décrite ne traite pas la notion d’image métrique, les reconstructions produites n’étant pas à l’échelle. En effet, le procédé génère pour chaque image une carte de profondeur (« Depth map » en anglais, qui est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D), mais les cartes de profondeur n’ont jamais le même facteur d’échelle entre elles, et aucune n’a le facteur d’échelle métrique. Pour une reconstruction globale cohérente, le procédé normalise les cartes de profondeur entre elles. Cette méthode, hormis le fait qu’elle ne peut reproduire le facteur d’échelle métrique qui est spécifiquement recherché, entraîne forcément une baisse de la précision.
[0008] Le document CN 108765479 A divulgue l’utilisation d’une séquence vidéo monoculaire pour estimer une carte de profondeur à une position donnée, et l’utilisation de la carte de profondeur suivante pour améliorer la première carte de profondeur. Cette technique ne procure pas, toutefois, de reconstruction 3D totale, l’objectif étant uniquement d’améliorer la carte de profondeur. En outre, la méthode d’apprentissage n’est pas exposée puisque le document décrit l’utilisation d’un CNN tout fait, déjà entraîné sur la base d’images étrangères à l’application envisagée. En outre, la qualité métrique des images produites n’est pas même évoquée.
[0009] Le document CN 108615244 A divulgue un enseignement technique comparable à celui divulgué par les deux documents ci-dessus, avec pour objectif d’obtenir une carte de profondeur la plus précise possible pour chaque image. Il n’évoque pas l’aspect métrique des images produites, et ne propose pas de reconstruction 3D. [0010] Le document CN 109087349 A divulgue l’utilisation d’une vidéo monoculaire, convertie en un nuage de points via un algorithme classique de stéréoscopie multi- vues. Chaque image est utilisée en entrée d’un CNN avec la partie du nuage de points qui s’y projette. Ces deux entrées sont utilisées pour apprentissage afin de créer une carte de profondeur en sortie la plus précise possible. Néanmoins, ce document ne propose pas non plus pas de reconstruction 3D totale, l’objectif étant là-aussi uniquement d’améliorer la carte de profondeur. En outre, la qualité métrique des images produites n’est pas non plus évoquée.
[0011] Le document CN 109146980 A divulgue l’utilisation d’un capteur monoculaire de téléphone portable en coopération avec l’accéléromètre/gyroscope, la recalibration et l’estimation de certains paramètres optiques afin de pouvoir estimer la profondeur métrique pour tout pixel. Dans cette solution, l’aspect métrique est calculé par calibration, sans notion d’apprentissage profond. En outre, ce document ne propose pas non plus pas de reconstruction 3D.
[Exposé de l’invention]
[0012] L'invention propose un dispositif et un procédé capables de pallier les inconvénients de l’art antérieur précité.
[0013] L'invention adresse en effet ces inconvénients en proposant une solution d’apprentissage d’un CNN de manière semi-supervisée, capable de générer des cartes de profondeur à l’échelle pour toute image 2D sous les deux hypothèses suivantes : - les images 2D utilisées en phase de prédiction ( i.e ., lors de l’utilisation finale du dispositif pour la reconstruction 3D) le sont avec des capteurs 2D similaires dans leurs caractéristiques intrinsèques (lesquelles comprennent par exemple la focale, le centre optique, la distorsion) à ceux qui ont été utilisés pour générer les données d’entraînement du CNN ; et - les scènes 3D à reconstruire dans le dispositif final sont de préférence similaires à celles imagées dans le but d’entraîner le CNN. Par exemple, la conception d’un dispositif monoculaire de reconstruction métrique de lésions cutanées, les images utilisées lors de l’apprentissage du CNN seraient toutes des images présentant des tissus cutanés sains ou présentant des lésions, et le dispositif ne sera pas adapté pour une autre tâche, par exemple la reconstruction d’éléments de mobilier d’une maison.
[0014] On rappelle que, dans le contexte des techniques de l'apprentissage profond utilisées dans le domaine de l’intelligence artificielle (ou IA, de l’anglais « Artificial Intelligence »), des modèles algorithmiques d’apprentissage supervisé nécessitent des connaissances spécifiques quant au problème étudié, alors que des modèles algorithmiques d’apprentissage non supervisé n’en nécessitent pas. L’apprentissage du réseau neuronal convolutif selon les modes de réalisation de l’invention est dit « semi-supervisé » en ce sens que le CNN est conçu et formé pour une application particulière, en conséquence de la seconde hypothèse ci- dessus.
[0015] Plus particulièrement, un premier aspect de l’invention propose un procédé de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle à l’aide d’un dispositif d’acquisition d’image monoculaire, comprenant :
- une phase d’entraînement d’une architecture d’apprentissage profond comprenant :
- - la génération de données d’apprentissage adaptées pour l’apprentissage de l’architecture d’apprentissage profond, lesdites données d’apprentissage comprenant des couples de données associées, lesdites données associées comprenant pour chaque couple de données, d’une part, une carte de profondeur générée à partir d’une reconstruction 3D d’une scène tridimensionnelle appartenant à une classe sémantique donnée, obtenue par stéréoscopie multi- vues sur la base d’au moins deux images 2D de ladite scène tridimensionnelle capturées sous des angles de vue respectifs par un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, ainsi que, d’autre part, l’une desdites images 2D de la scène tridimensionnelle; et,
- - l’entraînement de l’architecture d’apprentissage profond à partir des données d’apprentissage ; ainsi que
- une phase de prédiction comprenant :
- - l’acquisition, par le dispositif d’acquisition d’image monoculaire avec un unique capteur d’image calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, d’au moins une image 2D d’une scène tridimensionnelle d’intérêt, de même nature sémantique que les scènes tridimensionnelles concernées par l’acquisition d’images pour chaque couple de données associées généré durant la phase d’entraînement ;
- - la reconstruction d’une surface 3D à l’échelle de la scène tridimensionnelle d’intérêt, sur la base d’une carte de profondeur associée qui est fournie par l’architecture d’apprentissage profond en réponse à ladite image 2D acquise ; et,
- - la délivrance de la surface 3D reconstruite à l’échelle de la scène tridimensionnelle d’intérêt, pour stockage, traitement, affichage ou impression.
[0016] Grâce à l’invention, le dispositif selon des modes de réalisation produit tout le temps des cartes de profondeurs à la même échelle, qui est en l’occurrence l’échelle réelle, donc la non-connaissance de l’échelle réelle et la baisse de la précision qui est inhérente la solution décrite dans
Figure imgf000006_0001
document WO 2019/174377 A1 , par exemple, n’est pas encourue.
[0017] Avantageusement, par ailleurs, l’invention peut mettre en œuvre de la stéréoscopie multi-vues, mais elle peut aussi s’en affranchir en fonctionnant le cas échéant avec un unique capteur d’image 2D, c’est-à-dire avec un dispositif d’acquisition d’image 2D (ou imageur 2D) qui est monoculaire.
[0018] Le procédé selon le premier aspect de l'invention peut comprendre, en outre, les caractéristiques suivantes prises isolément ou en combinaison :
- l’architecture d’apprentissage profond peut être un réseau neuronal convolutif ;
- la reconstruction 3D peut être effectuée, dans la phase de prédiction, de manière totale en générant une carte de profondeur à partir d’une seule image 2D de la scène tridimensionnelle d’intérêt acquise par le dispositif d’acquisition d’image monoculaire en mode photo ;
- dans la phase de prédiction, la reconstruction 3D peut être effectuée de manière incrémentale par génération d’une série de reconstructions 3D partielles à partir d’une série d’images 2D respectives de la scène tridimensionnelle d’intérêt acquise par le dispositif d’acquisition d’image monoculaire en mode vidéo, et compilation itérative de ladite série de reconstructions 3D partielles en une reconstruction 3D générale ;
- la compilation de la série de cartes de profondeur partielles en une carte de profondeur générale peut comprendre, à chaque itération sauf la première itération, un recalage des reconstructions 3D partielles afin de minimiser itérativement la distance entre les nuages de points respectifs de la reconstruction 3D générale et de chaque reconstruction 3D partielle courante ; et/ou
- dans la phase d’entraînement, la génération de données d’apprentissage peut comprendre l’acquisition de n-uplets d’image 2D de chaque scène tridimensionnelle, où n est un nombre entier strictement supérieur à l’unité, par un dispositif d’acquisition d’image binoculaire ayant un unique capteur d’image calibré intrinsèquement et des moyens optiques calibrés avec le capteur d’image permettant l’acquisition par ledit dispositif d’acquisition d’image binoculaire, successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.
[0019] En outre, un deuxième aspect de l’invention concerne un dispositif de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle d’intérêt ayant des moyens adaptés pour la mise en œuvre de la phase de prédiction du procédé selon le premier aspect. Le dispositif comprend : - un dispositif d’acquisition d’image monoculaire, comprenant un unique capteur d’image 2D calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, pour l’acquisition d’une ou plusieurs images 2D de la scène tridimensionnelle d’intérêt en mode photo ou en mode vidéo, respectivement ;
- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond, une fois entraînée avec les données d’apprentissage dans la phase d’apprentissage ; et,
- une unité de calcul configurée pour exécuter toutes les étapes de la phase de prédiction appliquées à l’image 2D ou aux images 2D acquises par le dispositif d’acquisition d’image monoculaire.
[0020] Un troisième aspect de l’invention est relatif à un dispositif d’entraînement d’une architecture d’apprentissage profond ayant des moyens adaptés pour la mise en oeuvre de la phase d’apprentissage du procédé selon le premier aspect. L’architecture d’apprentissage profond peut être un réseau neuronal convolutif. Le dispositif comprend :
- un dispositif d’acquisition d’images binoculaire ayant un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, pour capturer au moins deux images 2D sous des angles de vue respectifs, d’une scène tridimensionnelle appartenant à une classe sémantique donnée ;
- une unité de calcul configurée pour exécuter toutes les étapes de la phase d’apprentissage appliquées aux images 2D acquises par le dispositif d’acquisition d’image binoculaire ; et,
- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond en cours d’entraînement avec les données d’apprentissage durant la phase d’apprentissage.
[0021] Un quatrième aspect de l’invention concerne un programme informatique comprenant des instructions qui, lorsque le programme informatique est chargé dans la mémoire d’un ordinateur et est exécuté par un processeur dudit ordinateur, causent la mise en oeuvre par l’ordinateur de toutes les étapes de la phase de prédiction du procédé selon le premier aspect, par un dispositif selon le deuxième aspect.
[0022] Enfin, un cinquième et dernier aspect de l’invention concerne un support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire architecture d’apprentissage profond générée par la mise en oeuvre de la phase d’apprentissage du procédé selon le premier aspect et adapté pour la mise en oeuvre de la phase de prédiction du procédé. Ce cinquième aspect concerne plus particulièrement un support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire l’architecture d’apprentissage profond générée par la mise en oeuvre de toutes les étapes de la phase d’apprentissage du procédé selon le premier aspect par un dispositif selon le troisième aspect. L’architecture d’apprentissage profond peut être un réseau neuronal convolutif.
[Description des dessins]
[0023] D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés, dans lesquels :
[Fig. 1] La figure 1 est une illustration schématique d’un procédé de reconstruction 3D à l’échelle selon des modes de mise en oeuvre de l’invention, comprenant une phase d’apprentissage consistant à entraîner un CNN avec des données d’apprentissage générées à partir de n-uplets d’images 2D obtenus par des capteurs d’images calibrés intrinsèquement et extrinsèquement, et une phase de prédiction permettant de produire des reconstructions 3D à l’aide dudit CNN et à partir d’une image 2D capturée par un unique capteur 2D passif ;
[Fig. 2] La figure 2 est un diagramme d’étapes illustrant une sous-phase de génération des données d’apprentissage effectuée lors de phase d’apprentissage du procédé de la figure 1 ;
[Fig. 3] La figure 3 est un diagramme d’étapes illustrant une sous-phase d’apprentissage profond du CNN effectuée lors de la phase d’apprentissage du procédé de la figure 1 , avec les données d’apprentissage obtenues lors de la sous-phase de la figure 2 ;
[Fig. 4] La figure 4 est un diagramme fonctionnel illustrant l’utilisation d’un réseau de neurones convolutif adapté pour générer une carte de profondeur à partir d’une image 2D, dans un dispositif monoculaire passif de reconstruction d’images 3D à l’échelle selon des modes de réalisation du second aspect de l’invention ; et, [Fig. 5] La figure 5 est un diagramme fonctionnel illustrant une architecture de CNN pouvant être utilisée dans des modes de réalisation de l’invention.
[Description des modes de réalisation]
[0024] Dans la description de modes de réalisation qui va suivre et dans les Figures des dessins annexés, les mêmes éléments ou des éléments similaires portent les mêmes références numériques aux dessins. A moins que ceci apporte un complément d’information utile à la clarté de l’exposé dans son ensemble, des éléments apparaissant plusieurs fois sur des figures différentes auxquelles il sera fait référence successivement, ne seront pas décrits à chaque fois en détail, afin de ne pas alourdir inutilement la description.
[0025] Des modes de réalisation de l’invention vont être décrits dans le contexte non limitatif de la conception d’un dispositif monoculaire de reconstruction à trois dimensions (3D), à l’échelle, pour le domaine bucco-dentaire. Un tel dispositif peut être utilisé dans un scanner intraoral monoculaire afin de générer des surfaces 3D reconstruites, à partir d’images 2D captées par un unique imageur 2D, dans le but d’offrir des solutions numériques au praticien dentiste pour des opérations prothétiques (confections de couronne, de bridge, etc.), orthodontiques (conceptions de gouttières de réalignement dentaire, etc.), par exemple.
[0026] Le but de tout traitement de reconstruction tridimensionnelle (ou reconstruction 3D) est d’obtenir les points tridimensionnels correspondant à la réalité de la scène. Il existe différents niveaux de reconstruction tridimensionnelle : reconstruction projective, reconstruction affine, et reproduction métrique.
[0027] Le premier niveau de cette hiérarchie est la reconstruction projective. A ce niveau, la reconstruction est fidèle à la réalité à une transformation projective près. Ce type de transformation est représenté par une matrice carrée non-singulière de taille 4 dans l’espace tridimensionnel. Du fait de la projection, cette transformation est définie à un facteur d’échelle près. Elle possède donc 15 degrés de liberté. Il est possible d’obtenir la reconstruction projective à partir d’un ensemble de correspondances entre deux vues (ou images 2D) grâce à une décomposition en matrice fondamentale.
[0028] Le niveau directement supérieur est la reconstruction affine. Elle est fidèle à la réalité à une transformation affine près. Une telle transformation comporte 12 degrés de liberté. Pour passer du niveau projectif au niveau affine, il faut restituer le parallélisme. Cela passe par la détermination d’un plan particulier. Dans l’espace projectif, il s’agit du plan défini par l’ensemble des points dont le facteur d’échelle des coordonnées homogènes est nul. Ceci correspond donc à l’ensemble des points d’“intersection” de droites parallèles. C’est-à-dire le point de fuite situé à l’infini. Il suffit alors de déterminer les coordonnées du plan contenant les points de fuite puis d’estimer la transformation projective qui l’appliquera à sa position canonique. Une fois les coordonnées du plan déterminées dans l’espace projectif, la transformation est de la forme d’une matrice. Seules les distances selon une même direction peuvent être mesurées sur une reconstruction 3D affine.
[0029] Le troisième et dernier niveau est la reconstruction métrique. Il consiste à restituer les angles entre les lignes des formes des objets dans l’image, lors de la reconstruction. Ce type de reconstruction est fidèle à la scène réelle à une similarité près. Les similarités sont des compositions de rotations (3 degrés de liberté), de translations (3 degrés de liberté) et d’homothéties (1 degré de liberté). Elles comportent donc 7 degrés de liberté. Par convention, on désigne par R la matrice de rotation, T le vecteur de translation, et H le facteur d’échelle de l’homothétie. Pour permettre une reconstruction métrique, il faut identifier une conique particulière W appelée la conique absolue. Pour passer d’une reconstruction affine à une reconstruction métrique, il faut déterminer la transformation affine qui placera la conique absolue sur sa position canonique.
[0030] Lorsque l’échelle est fixée, c’est-à-dire lorsque le facteur d’échelle H est connu, les distances peuvent être mesurées de façon absolue. Le facteur d’échelle H peut être connu, simplement, en disposant d’une distance de référence dans la scène. La reconstruction métrique est, dans ce cas particulier, aussi appelée reconstruction euclidienne, mais ce n’est qu’un cas particulier de reconstruction métrique dans laquelle une distance de référence dans la scène est connue car pour passer d’une reconstruction métrique au sens strict à ce qu’on appelle une reconstruction euclidienne, il suffit de réaliser une mise à l’échelle.
[0031] Dans le contexte de l’invention, on s’intéresse uniquement à une reconstruction métrique dans laquelle le facteur d’échelle est connu (ou reconstruction euclidienne). On parle aussi, de ce fait, d’une reconstruction 3D à l’échelle. Les termes et expressions « métrique », « à l’échelle » ou « à l’échelle réelle », utilisés en référence à une reconstruction 3D, sont de ce fait à considérer comme étant synonymes les uns des autres dans le cadre de la présente description. Ainsi, la reconstruction 3D métrique au sens de l’invention, ou « à l’échelle », est connue à une transformation rigide près, c’est-à-dire la composition d’une rotation R (3 degrés de liberté) et d’une translation T (3 degrés de liberté). Cette transformation n’a donc que 6 degrés de liberté.
[0032] Avant d’entamer la description de modes de réalisation détaillés, il apparaît utile de préciser la définition de certaines expressions ou de certains termes qui y seront employés. A moins qu’il n’en soit disposé autrement, ces définitions s’appliquent nonobstant d’autres définitions que l’homme du métier peut trouver dans certains ouvrages de la littérature spécialisée. [0033] Une « image », ou « vue », ou encore « balayage » (« scan » en anglais), est constituée d'un ensemble de points de la scène tridimensionnelle réelle. Pour une image 2D acquise par un dispositif d’acquisition d’image, ou dispositif imageur (par exemple un capteur CCD ou un capteur CMOS), les points concernés sont les points de la scène réelle projetés dans le plan de la focale du capteur 2D servant à acquérir l’image 2D, et sont définis par les pixels de l’image 2D. Pour une surface 3D reconstruite (aussi appelée « reconstruction 3D »), ce terme désigne le produit ou résultat du traitement de reconstruction 3D, les points concernés étant un nuage de points 3D obtenu par une transformation d’une « carte de profondeur » (voir définition donnée plus bas), ou par triangulation dans le cas de la stéréoscopie. Un tel nuage de points définit un squelette de la scène tridimensionnelle. Et un maillage 3D de ce nuage de points, par exemple un maillage de points 3D triangulés, peut en définir une enveloppe.
[0034] Un « n-uplet » d’images, où n est un nombre entier supérieur ou égal à l’unité, est un ensemble de n images prises simultanément par le ou les capteurs d’un dispositif d’acquisition d’images (ou dispositif d’imagerie). En général, le dispositif d’imagerie possède deux capteurs, permettant de générer un doublet (i.e., un 2- uplet) d’images de la même scène tridimensionnelle respectivement acquises simultanément par chacun de ces deux capteurs. Mais il peut posséder trois, quatre, cinq, etc. capteurs permettant d’acquérir un triplet {i.e., un 3-uplet), un quadruplet {i.e., un 4-uplet), un quintuplet {i.e., un 5-uplet), etc. d’images de la même scène, et qui sont respectivement acquises simultanément par chacun desdits capteurs. Toutefois, le dispositif peut également ne comprendre qu’un unique capteur associé à un arrangement de moyens optiques à base de miroir(s) et éventuellement de prisme(s) calibrés, permettant d’acquérir successivement plusieurs images de la même scène tridimensionnelle vues sous des angles de vue respectifs différents.
[0035] Un dispositif d’acquisition d’image « monoculaire » est un dispositif n’ayant qu’un unique capteur d’image et capable de n’acquérir des images d’une scène tridimensionnelle que sous un angle de vue unique seulement à une position du dispositif donnée.
[0036] Inversement, un dispositif d’acquisition d’image « binoculaire » est un dispositif ayant un ou plusieurs capteurs d’image et capable d’acquérir des images d’une même scène tridimensionnelle sous des angles de vue respectif différents à une position du dispositif donnée. Si le dispositif ne comprend qu’un unique capteur d’image, celui-ci est associé à des moyens optiques (miroir(s) et/ou prisme(s)) de manière à être capable d’acquérir successivement plusieurs images de la même scène tridimensionnelle vues sous des angles de vue différents.
[0037] Les « caractéristiques intrinsèques » d’un capteur sont la focale, le centre optique, et la distorsion du capteur. [0038] Les « caractéristiques extrinsèques » d’un capteur définissent la position et l’orientation du capteur relativement à un autre capteur. Dans le contexte de la présente description, une « échelle » est le rapport entre la mesure d'un objet dans une scène réelle et la mesure correspondante dans sa représentation 3D. Une reconstruction 3D est dite « à l’échelle » lorsque ce rapport est égal à l’unité. Une mesure réalisée dans la reconstruction 3D donne donc une valeur conforme à la même mesure qui serait réalisée dans la scène 3D réelle. Ceci est très utile pour les utilisateurs, notamment les praticiens en dermatologie ou en chirurgie dentaire, par exemple.
[0039] Une « carte de profondeur » (« Depth map » en anglais) associée à une image 2D, est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D. En pratique, il s’agit d’un ensemble de valeurs, codées sous la forme de niveaux (ou nuances) de gris, respectivement associées à chaque pixel p, de l’image 2D : plus la distance entre le point de la scène tridimensionnelle et le plan de l’image 2D est importante, et plus le pixel est sombre.
[0040] Une « carte de profondeur métrique » ou « carte de profondeur à l’échelle » associée à une image 2D est une représentation en 2D de l’information 3D à l’échelle qui a été reconstruite à partir (notamment) de ladite image 2D, ladite représentation en 2D étant générée par reprojection de la reconstruction 3D dans l’espace 2D du capteur ayant servi à capturer ladite image 2D.
[0041] Un « réseau de neurones (ou réseau neuronal) convolutif » ou « réseau de neurones (ou réseau neuronal) à convolution » ou encore CNN (de l’anglais « Convolutional Neural Networks »), est un type de réseau de neurones artificiels acycliques (« feed-forward », en anglais), consistant en un empilage multicouche de perceptrons, dont le but est de prétraiter de petites quantités d'informations. Un
CNN se compose de deux types de neurones artificiels, agencés en « strates » ou « couches » traitant successivement l'information :
- les neurones de traitement, qui traitent une portion limitée de l'image (appelée « champ réceptif ») au travers d'une fonction de convolution ; et, - les neurones de mise en commun (totale ou partielle) des sorties, dits neurones de « pooling » (qui signifie « regroupement » ou « mise en commun », en anglais), qui permettent de compresser l'information en réduisant la taille de l'image intermédiaire (souvent par sous-échantillonnage).
L'ensemble des sorties d'une couche de traitement permet de reconstituer une image intermédiaire, qui sert de base à la couche suivante. Un traitement correctif non-linéaire et ponctuel peut être appliqué entre chaque couche pour améliorer la pertinence du résultat. Les CNN connaissent actuellement de larges applications dans le domaine de la reconnaissance d'image.
[0042] La figure 1 est un schéma simplifié illustrant les différentes phases du procédé selon des modes de réalisation de l’invention. Comme représenté, le procédé comprend essentiellement deux phases, à savoir :
- une phase d’apprentissage 210, qui est elle-même divisée en une sous-phase 211 de génération de données d’apprentissage, d’une part, et d’une sous-phase d’apprentissage profond, d’autre part ; ainsi que,
- une phase de prédiction 220.
[0043] Lors de la phase d’apprentissage 210, qui est par exemple mise en oeuvre en laboratoire, on utilise un dispositif d’acquisition d’images binoculaire 12 comprenant au moins deux capteurs d’image, par exemple deux capteurs d’imagerie 2D passive, calibrés intrinsèquement et extrinsèquement. Dans une variante (non représentée), il est possible de n’utiliser qu’un unique capteur d’image calibré intrinsèquement, en combinaison avec un dispositif optique associé, également calibré, comprenant un ou plusieurs éléments optiques parmi des miroirs et des prismes, notamment, permettant d’acquérir successivement plusieurs images de la même scène prises sous des angles de capture respectifs différents. Dans ce dernier cas, le capteur et son dispositif optique associé sont par nature calibrés extrinsèquement, du fait de la connaissance a priori de l’agencement des éléments optiques par rapport au capteur d’image. Dit autrement, dans le cas d’un unique capteur d’image calibré intrinsèquement, celui-ci est utilisé en combinaison avec des moyens optiques calibrés intrinsèquement et calibrés extrinsèquement avec ledit capteur d’image, ce qui permet l’acquisition par le dispositif d’acquisition d’image binoculaire 12 ainsi formé, successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.
[0044] Lors de la deuxième phase 220, dite phase de prédiction, on utilise un dispositif d’acquisition d’images 11 avec un seul capteur calibré intrinsèquement (/.e., dont la focale, le centre optique et la distorsion sont connus), et identique à ceux du dispositif d’acquisition d’images 12 utilisé dans la première phase 210. Ce dispositif d’acquisition d’images 11 est donc avantageusement moins cher, et également moins encombrant que le dispositif 12 utilisé dans la première phase 210. Il est ainsi mieux adapté à la fabrication et à la vente de dispositifs de reconstruction d’images 3D à échelle industrielle, pour des utilisations commerciales. Son moindre encombrement autorise aussi son utilisation dans des applications de chirurgie buccale ou dentaire, par exemple, pour la prise d’images directement dans la bouche d’un patient.
[0045] Comme déjà indiqué plus haut, la phase d’apprentissage 210 est elle-même scindée en deux sous-phases :
- une sous-phase 211 de génération de données d’apprentissage ; et,
- une sous-phase 212 d’apprentissage profond adaptée pour entraîner un réseau de neurones convolutif (CNN) à l’aide d’une base de données 50 contenant les données d’apprentissage générées lors de la sous-phase 211.
[0046] Lors de la première sous-phase 211 , on utilise le dispositif 12 d’acquisition d’images à deux (ou plus) capteurs d’image 2D pour reconstruire, par stéréoscopie classique, une pluralité de scènes tridimensionnelles appartenant à une classe sémantique donnée. Ces reconstructions 3D sont générées à partir d’une série de couples d’images 2D acquises par le dispositif 12. Ces couples d’images 2D sont, à chaque fois, des vues de la scène tridimensionnelle prises sous des angles respectifs différents. Au fur et à mesure de chacune des reconstructions, on enregistre chaque image 2D ayant participé à la reconstruction, en association avec la carte de profondeur correspondante qui est générée par stéréoscopie multi-vues à partir des couples d’images 2D.
[0047] Lors de la phase d’apprentissage profond 212, on utilise les techniques classiques d’apprentissage profond par convolution pour bâtir un réseau de neurones profond 50 ou réseau CNN. Ce réseau CNN apprend à associer à une image 25 parmi les images 2D acquises par le dispositif 12 lors de la sous-phase 211 de la phase d’apprentissage 210, sa carte de profondeur métrique 2D correspondante 35 (étant rappelé que « métrique » veut dire « à l’échelle » dans le contexte de la présente description). Lorsque ce réseau CNN a terminé son apprentissage, il sait produire, pour une image 2D d’une scène tridimensionnelle d’intérêt quelconque (acquise avec un capteur d’image monoculaire 11 ayant les mêmes caractéristiques intrinsèques que le capteur d’image 12), une carte de profondeur métrique, si tant est que l’image ait été acquise avec un capteur ayant les mêmes propriétés intrinsèques (focale, centre optique, et distorsion) que les capteurs utilisés lors de la phase de génération. L’autre restriction est que le CNN ne sait donner de bons résultats que pour des scènes tridimensionnelles similaires, c’est- à-dire appartenant à la même classe sémantique, à celles rencontrées durant la sous-phase 311 de génération des données d’apprentissage (du moins en théorie, les réseaux CNN ayant par nature une forte capacité à généraliser leur apprentissage).
[0048] Enfin, dans la phase de prédiction 220, le dispositif de génération d’images 3D reconstruites utilise un seul capteur 2D passif 11 , qui image une scène tridimensionnelle d’intérêt, par exemple une zone de la peau d’un patient ou une partie d’une arcade dentaire d’un patient. Dans ce dispositif, une unité de calcul héberge le réseau de neurones convolutif 50 qui a été entraîné lors de la seconde sous-phase 212 de la première phase 210. Ce CNN permet alors de fournir une carte de profondeur métrique 35 à associée à chaque image 2D acquise 25. Ce dispositif est donc à même de reconstruire une surface 3D à l’échelle d’une scène tridimensionnelle d’intérêt à partir d’un seul capteur 2D passif acquérant des images 2D en mode « one-shot » (/.e., en mode photo) ou en mode rafale (/.e., en mode vidéo).
[0049] On va maintenant décrire plus en détails, en référence au diagramme d’étapes de la figure 2, la sous-phase 211 de génération des données d’apprentissage du CNN. La figure illustre de manière schématique une façon de générer des données d’apprentissage métriques à partir des n-uplets d’images acquis par le dispositif 12 d’acquisition d’images 2D (ou imageur) binoculaire de la Figure 1.
[0050] Tout d’abord, à l’étape 221 , au moins deux images 2D notées 21 et 22, sont acquises, par exemple simultanément, par chacun des deux capteurs, respectivement, de l’imageur 12 à deux capteurs calibrés intrinsèquement et extrinsèquement. Ces deux images forment un couplet 21 ,22 d’images 2D de la même scène 3D. Plus de deux images peuvent être acquises, simultanément ou successivement, selon la composition de l’imageur 12, c’est-à-dire selon le nombre de capteurs qu’il incorpore. De manière générale, on recueille à l’étape 221 des n- uplets d’images comme le couplet d’image 21 ,22, où n est un nombre entier strictement supérieur à l’unité. Ces n images ont en commun d’être des images
2D de la même scène 3D acquises soit successivement avec un unique capteur mais sous plusieurs angles de vue en respectant la notion de calibration extrinsèque des prises de vue, soit avec un ou plusieurs capteurs calibrés intrinsèquement et extrinsèquement. [0051] A l’étape 222, on utilise un algorithme 622 de type stéréoscopie multi-vues, qui est appliqué sur l’ensemble des couplets d’images 21 ,22 ou (dans le cas plus général) sur l’ensemble des n-uplets d’images 2D. Ce type d’algorithme est connu dans la littérature et bon nombre de librairies sont accessibles à l’homme du métier pour se les procurer (voir l’article par R. A. Newcombe, S. J. Lovegrove et A. J. Davison, "DTAM: Dense tracking and mapping in real-time", 2011 International Conférence on Computer Vision, Barcelona, 2011 , pp. 2320-2327 ou encore l’article par A. Geiger, J. Ziegler and C. Stiller, " StereoScan: Dense 3d reconstruction in real- time" 2011 IEEE Intelligent Vehicles Symposium (IV), Baden-Baden, 2011 , pp. 963-968). Ces algorithmes sont adaptés au cas d’un imageur 12 ayant un capteur unique ou au cas d’un imageur 12 ayant une pluralité de capteurs. Ce genre d’algorithmes prend en entrée les n-uplets d’images 2D, et génère en sortie un modèle 3D, référencé 23, de la scène imagée via les n-uplets.
[0052] L’homme du métier appréciera que dans le cas où le dispositif d’acquisition d’images 12 ne comprend qu’un seul capteur, le modèle 3D obtenu 23 n’est pas métrique, et donc la carte de profondeur 25 générée à l’étape 224 non plus. Pour rendre l’un et l’autre métriques, il est possible de remettre à l’échelle le modèle 3D obtenu. Ceci peut être fait par exemple en le redimensionnant pour que les dimensions de certains éléments contenus dans l’image soient identiques à des mesures physiques réalisées directement sur la scène 3D réelle. Cette opération manuelle étant évidemment fastidieuse, les modes de réalisation avec un dispositif d’acquisition d’images 12 ayant deux capteurs ou plus sont préférés.
[0053] Par ailleurs, on notera qu’un algorithme comme l’algorithme 622 de stéréoscopie multi-vues génère également en sortie la position relative de l’imageur 12 par rapport à la scène 3D virtuelle (c’est-à-dire la scène 3D modélisée par le modèle 23) à tous les moments où cet imageur a acquis un des n-uplet d’images 2D ayant servi à générer le modèle 3D concerné 23.
[0054] De fait, les positions relatives des capteurs dans la scène 3D virtuelle sont utilisées, à l’étape 223, par un algorithme de repositionnement 623 pour retrouver les positions métriques des capteurs. Dans le cas d’un dispositif à plusieurs capteurs, produisant des reconstructions à l’échelle, les positions des capteurs donnés par l’algorithme 622 sont déjà métriques. Dans le cas d’un dispositif ne comportant qu’un seul capteur, dont la reconstruction a été redimensionnée pour devenir métrique, l’algorithme 623 applique exactement le même redimensionnement aux positions de capteurs afin de leur donner un positionnement métrique. En sortie de l’algorithme 623, on obtient donc des positions métriques 21a et 22a des capteurs ayant produit les images 2D, respectivement 21 et 22. [0055] A partir du modèle 3D obtenu 23 et des positions relatives 21 a et 22a des images 2D de départ 21 et 22, respectivement, ayant servi à le produire à l’étape 222, on peut générer à l’étape 224 une carte de profondeur métrique {i.e., à l’échelle réelle), référencée 225, pour toute image 2D fournie en entrée de l’algorithme 622 utilisé à ladite étape 222.
[0056] On obtient ainsi des couples 521 et 522, appelés dans la suite couples d’apprentissage, composés chacun d’une image 2D telle que les images 21 et 22 produites à l’étape 221 par l’imageur 12, d’une part, et d’une carte de profondeur métrique 25 correspondante, d’autre part. A chaque itération du procédé, on obtient au minimum deux tels couples d’apprentissage (et plus si plus d’images 2D sont produites à l’étape 221 et servent à l’étape 222 pour générer le modèle 3D 23 de la scène), Chaque image 21 et 22 a sa propre carte de profondeur, 21 b et 22b, respectivement. Pour une position donnée du système binoculaire, on obtient donc deux couples formés chacun d’une image 2D et de sa carte de profondeur correspondante, une pour chaque capteur. L’algorithme est itéré un grand nombre de fois afin de produire une quantité importante de tels couples d’apprentissage, par exemple des milliers voire quelques dizaines de milliers de couples d’apprentissage.
[0057] A l’étape 225, les couples d’apprentissage 521 ,522 sont stockés dans une mémoire de manière à former une base de données d’apprentissage 50. Cette base de données 50 est adaptée pour l’entraînement d’un réseau de neurones profond (CNN), ainsi qu’il va maintenant être décrit en référence à la figure 3.
[0058] La figure 3 illustre de façon schématique le déroulement de la sous-phase 212 d’apprentissage profond de la figure 2. Cette sous-phase réalise la conception d’un CNN, référencé 60, pouvant prédire une carte de profondeur métrique 351 à partir d’une unique image 2D d’une scène 3D quelconque acquise par un dispositif d’acquisition monoculaire, c’est-à-dire ne comprenant qu’un seul capteur d’image, comme c’est le cas de l’imageur 11 de la figure 1. Pour cela, la solution proposée selon les modes de réalisation de l’invention est une solution d’apprentissage du réseau de neurones convolutif 60 de manière semi-supervisée. La notion de semi- supervision se réfère au fait qu’on a monté un procédé à part pour générer des données d’apprentissage : il y a donc un transfert « manuel » de données d’un algorithme à l’autre, i.e. de la sous-phase 211 à la sous-phase 212 de la phase d’apprentissage 210 de la figure 1 mais, comme l’homme du métier l’appréciera, la génération de données d’apprentissage reste automatique. Par opposition, la non-supervision se réfère au fait que le réseau trouverait seul, par analyse des données d’entrée, des règles d’inférence permettant de produire des cartes de profondeur, ce qui est difficilement concevable. Et la supervision totale se réfère au fait de donner des données d’apprentissage non issues d’un processus automatique mais issues d’un processus entièrement manuel, par exemple en créant des cartes de profondeur « à la main » par mesure physique, ce qui n’est pas le cas ici non plus. L’apprentissage semi-supervisé selon les modes de réalisation est réalisé à partir des couples d’apprentissage stockés dans la base de données d’apprentissage 50 et qui ont été produits lors de la sous-phase 212 de génération des données d’apprentissage comme décrit ci-dessus en référence à la figure 2. Cet apprentissage est mis en oeuvre par un calculateur adapté, par exemple un processeur graphique (ou GPU, de l’anglais « Graphical Processing Unit ») capable de réaliser de grandes quantités de calcul.
[0059] Une fois entraîné, le réseau de neurones 60 est capable de générer, dans la phase de prédiction 220 du procédé, des cartes de profondeurs métriques 351 pour toute image 2D. Ceci est possible sous la condition que les images 2D utilisées dans la phase de prédiction le soient avec des capteurs similaires dans leurs caractéristiques intrinsèques (i.e., qu’ils aient la même focale, le même centre optique, et la même distorsion) à ceux qui ont été utilisés lors de la sous-phase 211 pour générer les données d’apprentissage {i.e. les couples d’entraînement comme les couples 521 ,522 décrit en référence à la figure 2) du réseau de neurones 60.
[0060] De préférence, les scènes 3D à reconstruire par le dispositif commercial dans la phase de prédiction 220 sont similaires à celles imagées dans la phase d’apprentissage 210, et plus particulièrement dans la sous-phase 211 de génération des données d’apprentissage, dans le but d’entraîner le CNN 60. Par exemple, si l’on doit concevoir un dispositif monoculaire de reconstruction métrique de lésions cutanées, les images utilisées lors de l’apprentissage du CNN sont préférentiellement toutes des images présentant des tissus cutanés sains ou présentant des lésions. Comme précédemment indiqué, le dispositif obtenu ne serait que peu adapté pour une autre tâche, par exemple la reconstruction d’éléments de mobilier d’une maison. Cette notion de similarité entre les images 2D utilisées dans la phase de prédiction 220 avec les images 2D utilisées dans la sous-phase 211 de génération des données d’apprentissage, est une notion relative, étant donné les caractéristiques d’apprentissage des réseaux de neurones convolutifs. Dit autrement, l’homme du métier appréciera que les images doivent être de même classe sémantique, c’est-à-dire représenter des scènes de même nature, i.e., montrant des objets similaires dans l’image (par exemple dans les deux cas des visages, ou des lésions cutanées, ou des arcades dentaires de patients, ou des pièces mécaniques identiques ou similaires, etc.).
[0061] Le diagramme fonctionnel de la figure 4 montre de manière très schématique un dispositif 40 d’imagerie monoculaire.
[0062] Le dispositif 40 comprend un dispositif 11 de capture d’image (ou imageur) monoculaire, c’est-à-dire ne comprenant qu’un unique capteur d’image, comme le dispositif 11 montré à la figure 1 pour illustrer la phase de prédiction 220, par exemple un capteur passif. Il peut s’agir d’un appareil photo, ou d’une caméra, d’un capteur en technologie CMOS ou en technologie CCD, fonctionnant en noir et blanc ou en couleurs. Une scène 3D statique peut être imagée par le dispositif de capture d’image monoculaire. Ce dispositif peut acquérir des images 2D en mode photographie (une seule image 2D à la fois) ou en mode vidéo (plusieurs images 2D au cours du temps selon une fréquence quelconque).
[0063] Le dispositif 40 comprend une unité de calcul 41 , par exemple un microprocesseur d’un ordinateur (« Central Processing Unit ») ou un groupe de processeurs par exemple au sein d’une carte graphique (GPU), configuré pour exécuter un logiciel de traitement de données numériques.
[0064] Le dispositif 40 comprend en outre un système 42 de stockage d’informations numériques, par exemple un disque dur en technologie SSD (de l'anglais « solid- state drive ») ou autre, adapté pour stocker de manière permanente le réseau de neurones convolutif 60 généré lors de la phase d’apprentissage 210 du procédé, et plus particulièrement lors de la sous-phase 212. L’homme du métier appréciera que le système de stockage peut être physiquement inclus directement dans le dispositif 40, ou bien être déporté par exemple sur un ordinateur ou un serveur de calcul distant auquel le dispositif 40 peut accéder par un réseau de communication ad-hoc, par exemple par un intranet ou par l’Internet, par exemple via un réseau Ethernet ou un réseau de radiocommunications sans fils comme un réseau 3G- LTE, 4G ou 5G, sans que cela n’affecte le processus.
[0065] Dans tous les cas, le système 42 de stockage d’informations peut être adapté pour stocker en mémoire, en outre, les images 2D acquises par le dispositif 40 lors de la phase de prédiction, ainsi que d’autres données, comme les reconstructions 3D générées à partir desdites images et du réseau de neurones convolutif 60. Dit autrement, le système 42 de stockage d’informations peut mémoriser les nouveaux couples formés d’une image 2D et de sa reconstruction 3D associée telle que produites par le réseau de neurones 60. Ces données peuvent aussi être collectées par, ou transmises au fabricant du dispositif, à intervalles de temps. Cela permet de compléter la base de données d’apprentissage, pour des mises à jour du réseau de neurones convolutif 60, soit automatiquement, soit à l’occasion d’une mise à niveau complète du logiciel du dispositif 40.
[0066] Le traitement de données numériques mis en oeuvre par le calculateur 41 permet de transformer le flux de données entrant, à savoir les images 2D comme l’image 25, en une reconstruction 3D sous la forme d’une carte de profondeur 35. Il utilise à cet effet le réseau de neurones convolutif 60 qui a été chargé par le fabricant du dispositif dans le système 42 de stockage d’informations avant la livraison du dispositif 40 au client. On rappelle qu’une telle carte de profondeur est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D d’origine. Cette transformation de l’image 2D vers une carte de profondeur peut être faite grâce au réseau de neurones convolutif 60 entraîné comme il a été décrit en référence à la figure 3, avec les données d’apprentissage générées comme il a été décrit en référence à la figure 2.
[0067] Dans les réalisations connues, dans l’art antérieur, de ce genre de technique de reconstruction 3D (consistant à produire une carte de profondeur) que l’homme du métier peut trouver dans la littérature (voir l’article par Eigen David, Puhrsch Christian et Fergus Rob, "Depth Map Prédiction from a Single Image using a Multi- Scale Deep Network, NIPS'14: Proceedings of the 27th International Conférence on Neural Information Processing Systems - Volume 2, décembre 2014 pages 2366-2374), l’information métrique est perdue si un imageur monoculaire est utilisé pour capter une image 2D de la scène à reconstruire, du fait que la carte de profondeur est adimensionnelle en sorte que les informations de distance ne sont que relatives. Grâce à la mise en oeuvre de l’invention, au contraire, la carte de profondeur 35 est à l’échelle réelle. La résolution de cette problématique est faite en amont, dans la phase d’apprentissage 210 du réseau de neurones convolutif, qui a été décrite dans ce qui précède.
[0068] En outre, l’homme du métier appréciera qu’un dispositif utilisable pour l’acquisition et la génération de données d’apprentissage comme décrit plus haut en référence au diagramme d’étapes de la figure 2 peut être structurellement similaire au dispositif commercial de la figure 4, en ce sens qu’il intègre le même type de capteur (même focale / centre optique / coefficients de distorsion), une unité de calcul et une mémoire de stockage de masse. La différence réside dans le fait que le dispositif de la figure 2 peut intégrer non seulement un mais aussi plusieurs capteurs, qui sont tous du même type de manière à présenter les mêmes caractéristiques de calibrage intrinsèque. Dans le cas de plusieurs capteurs, ces capteurs sont en outre calibrés extrinsèquement, autrement dit leurs positions relatives les uns par rapport aux autres est connue.
[0069] Pour finir, le dispositif 40 de la figure 4 comprend une unité de restitution visuelle, par exemple un écran d’ordinateur 43 ou similaire, pour afficher la reconstructions
3D de manière visible par l’utilisateur. A la place ou en complément, le dispositif peut aussi comprendre une imprimante 3D, pour imprimer la surface 3D reconstruite sur tout support approprié.
[0070] Le processus de reconstruction 3D d’une scène statique à partir des associations entre une image 2D et une carte de profondeur qui sont produites par le réseau de neurones convolutif 60 peut se faire de plusieurs manières.
[0071] Dans certains modes de mise en oeuvre, la reconstruction 3D affichée sur l’écran 43 est effectuée totalement à partir d’une seule image 2D. C’est notamment le cas d’une prise de vue en mode photo par l’imageur 11 . Dans cette mise en oeuvre, une seule image 2D génère une carte de profondeur. Cette carte de profondeur peut avantageusement être transformée en une reconstruction 3D sous la forme d’un nuage de points 3D ou d’un maillage 3D triangulé.
[0072] Dans d’autres modes de mise en oeuvre, la reconstruction 3D affichée sur l’écran 43 est effectuée de manière incrémentale. C’est le cas d’une prise de vues en mode vidéo, produisant une séquence (ou un flux) d’images 2D de la scène 3D à reconstruire. Dans cette mise en oeuvre, chaque image du flux d’images 2D génère une carte de profondeur associée respective. L’ensemble des cartes de profondeurs ainsi générées peuvent être compilées en une seule reconstruction 3D générale, qui agrège l’ensemble des cartes de profondeur. Cette agrégation de cartes de profondeurs peut se faire de diverses manières, parmi lesquelles :
- soit une estimation des positions relatives images 2D et donc des cartes de profondeur par un algorithme classique de type SLAM (de l’anglais « Simultaneous Localisation And Mapping »). Une fois les positions relatives connues, toutes les cartes de profondeur peuvent être positionnées dans un espace commun, générant ainsi une reconstruction 3D globale ;
- soit un recalage 3D des reconstructions 3D partielles de chaque carte de profondeur. Le recalage 3D peut se faire par exemple par un algorithme classique de type ICP (de l’anglais « Itérative Closest Point » ou « Itérative Corresponding Point »). [0073] La surface 3D reconstruite délivrée par le dispositif de la figure 4 est une surface
3D à l’échelle de la scène tridimensionnelle d’intérêt. Elle peut être stockée dans un système de stockage de données, faire l’objet d’un traitement d’image, être affichée ou être imprimée, selon les besoins de l’application.
[0074] L’homme du métier appréciera que même si l’exemple d’un réseau neuronal convolutif (CNN) a été décrit dans ce qui précède, l’invention s’applique à tout type d’architecture d’apprentissage profond, tel que par exemple les réseaux de neurones récurrents (en anglais « Récurrent Neural Networks », ou RNN). Dit autrement, l’exemple du CNN n’est pas limitatif, le CNN pouvant être remplacé par tout type d’architecture d’apprentissage profond.
[0075] Dans un mode de réalisation illustré par la figure 5, l’architecture d’apprentissage profond 60 est un réseau de neurones convolutif qui peut avoir une structure tout à fait classique. Ce type de CNN est disponible dans des librairies connues par l’homme du métier qui sont en accès libre. En entrée, une image 25 en deux dimensions est fournie sous la forme d’une matrice de pixels. Elle a deux dimensions pour une image en niveaux de gris. Le cas échéant, la couleur est représentée par une troisième dimension, de profondeur 3 pour représenter les couleurs fondamentales [Rouge, Vert, Bleu].
[0076] La figure 5 montre un exemple particulier de CNN, qui est en fait un FCN (de l’anglais « Fully Convolutional Network ») inspiré de l’article par J. Long, E. Shelhamer et T. Darrell, "Fully convolutional networks for semantic segmentation" , IEEE Conférence on Computer Vision and Pattern Récognition (CVPR), Boston,
MA, 2015, pp. 3431-3440. Ce FCN comporte deux parties bien distinctes, selon une architecture encodage/décodage.
[0077] La première partie du FCN d’encodage est la partie convolutive proprement dite. Elle comprend, la « couche de traitement convolutif » 51 , qui possède une succession de filtres, ou « noyaux de convolution », appliqués en strates. La couche de traitement convolutif 51 fonctionne comme un extracteur de caractéristiques des images 2D admises en entrée du CNN. Dans l’exemple, l’image d’entrée 25 est passée à travers la succession des noyaux de convolution, créant à chaque fois une nouvelle image appelée carte de convolution. Chaque noyau de convolution possède deux couches de convolution 511 et 512, et une couche 513 de réduction de la résolution de l’image par une opération de mise en commun aussi appelée opération de maximum local (« maxpooling », en anglais).
[0078] La sortie de la partie convolutive 51 est ensuite fournie en entrée d’une ultime couche de convolution 520 captant tout le champ d’action visuel de la couche précédente, et mimant ainsi une couche entièrement connectée (couche « fully connected » en anglais). [0079] Enfin, une couche de déconvolution 530 finale produit en sortie une carte de profondeur qui, grâce à la mise en oeuvre des modes de réalisation, est une carte de profondeur à l’échelle.
[0080] L’homme du métier appréciera que, ainsi qu’il est connu, le réseau de neurones fonctionne d’autant mieux dans la phase de prédiction si l’on travaille sur un problème “proche” du problème initial sur lequel le réseau a été entraîné. Dans le contexte de l’invention, cela signifie que les scènes 3D à reconstruire par le dispositif d’acquisition 40 de la figure 4 avec un réseau de neurones convolutif 50 comme représenté à la figure 5 qui a été entraîné comme décrit plus haut en référence aux figures 1 , 2 et 3, sont de préférence similaires à celles imagées dans le but d’entraîner ledit réseau de neurones convolutif (CNN). On rappelle que, par « images similaires » on entend des images se trouvant dans le même champ sémantique. Par exemple, si le but est de concevoir un dispositif monoculaire de reconstruction à l’échelle de lésions cutanées, les images utilisées lors de l’apprentissage du CNN seraient toutes des images présentant des tissus cutanés sains ou présentant des lésions. De même, si le but est de concevoir un dispositif monoculaire passif de reconstruction à trois dimensions (3D) pour la reconstruction tridimensionnelle d’une arcade dentaire, le dispositif 40 est de préférence entraîné avec des images passives d’arcades dentaires. Inversement, un tel dispositif ne serait pas adapté pour une autre tâche, par exemple la reconstruction 3D d’éléments de mobilier d’une maison d’habitation.
[0081] La présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en oeuvre par la personne du métier à la lecture de la présente description et des dessins annexés.
[0082] Des exemples non limitatifs d’application industrielle de l’invention sont les suivants, en dermatologie, en matière de contrôle industriel, ou dans le domaine du divertissement, respectivement.
[0083] En dermatologie, en effet, l’invention permet de concevoir un dermatoscope avec un seul capteur capable de reconstruire des lésions cutanées en 3D à l’échelle. Cela demande de concevoir en premier lieu un dermatoscope avec deux capteurs, pour reconstruire une pluralité de lésions cutanées en 3D par stéréoscopie. Dans un deuxième temps, une fois le réseau CNN éduqué à reconstruire les cartes de profondeur correspondantes, ce réseau CNN peut être transféré dans le dispositif destiné à la commercialisation, ne comportant lui qu’un seul capteur 2D afin de réduire le coût du dispositif.
[0084] Pour une application dans le contrôle industriel, le même principe s’applique pour les dispositifs industriels destinés à reconstruire de manière métrique, c’est-à-dire à l’échelle réelle, des pièces industrielles (dans le secteur de l’aviation, de l’automobile, etc.) afin de s’assurer de leurs bonnes dimensions, ou de les reconstruire précisément en 3D pour rechercher des défauts de fabrication courants.
[0085] En matière de divertissement, l’invention permet par exemple de développer une application pour téléphone mobile comportant un seul capteur d’image (ce qui est le cas de la majorité des téléphones mobiles actuels de milieu de gamme). L’application peut permettre de générer, à partir d’images ou de vidéos 2D monoculaires de scènes statiques, des reconstructions 3D métriques de haute précision. Pour cela, l’invention propose une phase de conception avec deux capteurs identiques à ceux présents dans le type de téléphone mobile en question, ces deux capteurs étant calibrés de manière intrinsèque et extrinsèque. Ces deux capteurs sont utilisés pour reconstruire un grand nombre de scènes 3D statiques par stéréoscopie. Les reconstructions 3D servent alors pour l’apprentissage du réseau CNN. Le réseau CNN est alors transféré dans l’appareil mobile, voire dans un serveur de calcul distant. Par la suite, l’application dans l’appareil mobile (monoculaire) envoie toute image 2D acquise vers ce réseau CNN, qui produit alors une reconstruction 3D métrique.
[0086] Dans le présent exposé, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Les différentes caractéristiques présentées peuvent être avantageusement combinées. Leur présence dans des parties différentes de la présente demande de brevet, n’excluent pas cette possibilité. Les signes de référence aux dessins ne sauraient être compris comme limitant la portée de l’invention.

Claims

Revendications
[Revendication 1] Procédé de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle à l’aide d’un dispositif d’acquisition d’image monoculaire (11 ), comprenant :
- une phase (210) d’entraînement d’une architecture d’apprentissage profond (60) comprenant :
- - la génération (211) de données d’apprentissage (50) adaptées pour l’apprentissage de l’architecture d’apprentissage profond, lesdites données d’apprentissage comprenant des couples de données associées, lesdites données associées comprenant pour chaque couple de données, d’une part, une carte de profondeur générée à partir d’une reconstruction 3D d’une scène tridimensionnelle appartenant à une classe sémantique donnée, obtenue par stéréoscopie multi-vues sur la base d’au moins deux images 2D de ladite scène tridimensionnelle capturées sous des angles de vue respectifs par un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, ainsi que, d’autre part, l’une desdites images 2D de la scène tridimensionnelle; et,
- - l’entraînement (212) de l’architecture d’apprentissage profond à partir des données d’apprentissage ; ainsi que
- une phase de prédiction (220) comprenant :
- - l’acquisition, par le dispositif (11) d’acquisition d’image monoculaire avec un unique capteur d’image calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, d’au moins une image 2D (25) d’une scène tridimensionnelle d’intérêt, de même nature sémantique que les scènes tridimensionnelles concernées par l’acquisition d’images pour chaque couple de données associées généré durant la phase d’entraînement ;
- - la reconstruction d’une surface 3D à l’échelle de la scène tridimensionnelle d’intérêt, sur la base d’une carte de profondeur associée (35) qui est fournie par l’architecture d’apprentissage profond en réponse à ladite image 2D acquise ; et,
- - la délivrance de la surface 3D reconstruite à l’échelle de la scène tridimensionnelle d’intérêt, pour stockage, traitement, affichage ou impression.
[Revendication 2] Procédé selon la revendication 1 , dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.
[Revendication 3] Procédé selon la revendication 1 , dans lequel la reconstruction 3D est effectuée, dans la phase de prédiction, de manière totale en générant une carte de profondeur à partir d’une seule image 2D de la scène tridimensionnelle d’intérêt acquise par le dispositif (11) d’acquisition d’image monoculaire en mode photo.
[Revendication 4] Procédé selon la revendication 1 , dans lequel, dans la phase de prédiction, la reconstruction 3D est effectuée de manière incrémentale par génération d’une série de reconstructions 3D partielles à partir d’une série d’images 2D respectives de la scène tridimensionnelle d’intérêt acquise par le dispositif (11 ) d’acquisition d’image monoculaire en mode vidéo, et compilation itérative de ladite série de reconstructions 3D partielles en une reconstruction 3D générale.
[Revendication 5] Procédé selon la revendication 4, dans lequel la compilation de la série de cartes de profondeur partielles en une carte de profondeur générale comprend, à chaque itération sauf la première itération, un recalage des reconstructions 3D partielles afin de minimiser itérativement la distance entre les nuages de points respectifs de la reconstruction 3D générale et de chaque reconstruction 3D partielle courante.
[Revendication 6] Procédé selon l’une quelconque des revendications 1 à 5, dans lequel, dans la phase d’entraînement, la génération (211) de données d’apprentissage comprend l’acquisition de n-uplets d’image 2D de chaque scène tridimensionnelle, où n est un nombre entier strictement supérieur à l’unité, par un dispositif d’acquisition d’image binoculaire (12) ayant un unique capteur d’image calibré intrinsèquement et des moyens optiques calibrés avec le capteur d’image permettant l’acquisition par ledit dispositif d’acquisition d’image binoculaire (12), successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.
[Revendication 7] Dispositif (40) de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle d’intérêt pour la mise en oeuvre de la phase de prédiction d’un procédé selon l’une quelconque des revendications 1 à 6, comprenant :
- un dispositif d’acquisition d’image monoculaire (11 ), comprenant un unique capteur d’image 2D calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, pour l’acquisition d’une ou plusieurs images 2D de la scène tridimensionnelle d’intérêt en mode photo ou en mode vidéo, respectivement ;
- un système de stockage d’informations (42) adapté pour stocker l’architecture d’apprentissage profond (60), une fois entraînée avec les données d’apprentissage (50) dans la phase d’apprentissage ; et,
- une unité de calcul (41 ) configurée pour exécuter toutes les étapes de la phase de prédiction appliquées à l’image 2D ou aux images 2D acquises par le dispositif d’acquisition d’image monoculaire (11).
[Revendication 8] Dispositif selon la revendication 7, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.
[Revendication 9] Dispositif d’entraînement d’une architecture d’apprentissage profond (60) comprenant :
- un dispositif (12) d’acquisition d’images binoculaire ayant un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, pour capturer au moins deux images 2D sous des angles de vue respectifs, d’une scène tridimensionnelle appartenant à une classe sémantique donnée ;
- une unité de calcul (41 ) configurée pour exécuter toutes les étapes de la phase d’apprentissage appliquées aux images 2D acquises par le dispositif d’acquisition d’image binoculaire (12) ; et,
- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond (60) en cours d’entraînement avec les données d’apprentissage (50) durant la phase d’apprentissage.
[Revendication 10] Dispositif selon la revendication 9, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.
[Revendication 11] Programme informatique comprenant des instructions qui, lorsque le programme informatique est chargé dans la mémoire d’un ordinateur et est exécuté par un processeur dudit ordinateur, causent la mise en oeuvre par l’ordinateur de toutes les étapes de la phase de prédiction du procédé selon l’une quelconque des revendications 1 à 6 par un dispositif selon l’une quelconque des revendications 7 et 8.
[Revendication 12] Support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire l’architecture d’apprentissage profond (60) générée par la mise en oeuvre de toutes les étapes de la phase d’apprentissage du procédé selon l’une quelconque des revendications 1 à 6 par un dispositif selon l’une quelconque des revendications 9 et 10.
[Revendication 13] Support d'enregistrement selon la revendication 12, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.
PCT/EP2021/065168 2020-06-06 2021-06-07 Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire WO2021245290A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2005927A FR3111222B1 (fr) 2020-06-06 2020-06-06 Génération de modèles 3D à l’échelle à partir d’images 2D produites par un dispositif d’imagerie monoculaire
FRFR2005927 2020-06-06

Publications (1)

Publication Number Publication Date
WO2021245290A1 true WO2021245290A1 (fr) 2021-12-09

Family

ID=76283770

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/065168 WO2021245290A1 (fr) 2020-06-06 2021-06-07 Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire

Country Status (2)

Country Link
FR (1) FR3111222B1 (fr)
WO (1) WO2021245290A1 (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615244A (zh) 2018-03-27 2018-10-02 中国地质大学(武汉) 一种基于cnn和深度滤波器的图像深度估计方法及***
CN108765479A (zh) 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109087349A (zh) 2018-07-18 2018-12-25 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN109146980A (zh) 2018-08-12 2019-01-04 浙江农林大学 基于单目视觉的优化的深度提取和被动测距方法
WO2019174377A1 (fr) 2018-03-14 2019-09-19 大连理工大学 Procédé de reconstruction dense de scène tridimensionnelle basée sur une caméra monoculaire

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174377A1 (fr) 2018-03-14 2019-09-19 大连理工大学 Procédé de reconstruction dense de scène tridimensionnelle basée sur une caméra monoculaire
CN108615244A (zh) 2018-03-27 2018-10-02 中国地质大学(武汉) 一种基于cnn和深度滤波器的图像深度估计方法及***
CN108765479A (zh) 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109087349A (zh) 2018-07-18 2018-12-25 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN109146980A (zh) 2018-08-12 2019-01-04 浙江农林大学 基于单目视觉的优化的深度提取和被动测距方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A. GEIGERJ. ZIEGLERC. STILLER: "StereoScan: Dense 3d reconstruction in real-time", 2011 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV, 2011, pages 963 - 968, XP031998915, DOI: 10.1109/IVS.2011.5940405
EIGEN DAVIDPUHRSCH CHRISTIANFERGUS ROB: "Depth Map Prédiction from a Single Image using a Multi-Scale Deep Network?", NIPS'14: PROCEEDINGS OF THE 27TH INTERNATIONAL CONFÉRENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, vol. 2, December 2014 (2014-12-01), pages 2366 - 2374
J. LONGE. SHELHAMERT. DARRELL: "Fully convolutional networks for semantic segmentation", IEEE CONFÉRENCE ON COMPUTER VISION AND PATTERN RÉCOGNITION (CVPR, 2015, pages 3431 - 3440
JRGEN STURM ET AL: "A benchmark for the evaluation of RGB-D SLAM systems", INTELLIGENT ROBOTS AND SYSTEMS (IROS), 2012 IEEE/RSJ INTERNATIONAL CONFERENCE ON, IEEE, 7 October 2012 (2012-10-07), pages 573 - 580, XP032287619, ISBN: 978-1-4673-1737-5, DOI: 10.1109/IROS.2012.6385773 *
KEISUKE TATENO ET AL: "CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 11 April 2017 (2017-04-11), XP080762383, DOI: 10.1109/CVPR.2017.695 *
LEE D H ET AL: "BIPRISM-STEREO CAMERA SYSTEM", PROCEEDINGS 1999 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. FORT COLLINS, CO, JUNE 23 - 25, 1999; [PROCEEDINGS OF THE IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION], LOS ALAMITOS, CA, IE, 23 June 1999 (1999-06-23), pages 82 - 87, XP000870583, ISBN: 978-0-7803-5771-6 *
R. A. NEWCOMBES. J. LOVEGROVEA. J. DAVISON: "DTAM: Dense tracking and mapping in real-time", 2011 INTERNATIONAL CONFÉRENCE ON COMPUTER VISION, 2011, pages 2320 - 2327

Also Published As

Publication number Publication date
FR3111222A1 (fr) 2021-12-10
FR3111222B1 (fr) 2023-04-28

Similar Documents

Publication Publication Date Title
Kalantari et al. Deep high dynamic range imaging of dynamic scenes.
Ikoma et al. Depth from defocus with learned optics for imaging and occlusion-aware depth estimation
EP2715662B1 (fr) Procede de localisation d'une camera et de reconstruction 3d dans un environnement partiellement connu
WO2019091787A1 (fr) Procédé d'estimation de pose d'une caméra dans le référentiel d'une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d'ordinateur associé
EP4161437B1 (fr) Prise d'empreinte optique de l'arcade dentaire d'un patient
FR2882160A1 (fr) Procede de capture d'images comprenant une mesure de mouvements locaux
TW200841704A (en) Arrangement and method for the recording and display of images of a scene and/or an object
WO2021245273A1 (fr) Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image
WO2018185104A1 (fr) Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes
Degraux et al. Online convolutional dictionary learning for multimodal imaging
JP2023521270A (ja) 多様なポートレートから照明を学習すること
FR3027144A1 (fr) Procede et dispositif de determination de mouvement entre des images video successives
Bolkart et al. Instant multi-view head capture through learnable registration
Wang et al. Near-infrared image guided neural networks for color image denoising
US20240144480A1 (en) Dental treatment video
Lin et al. Learning lens blur fields
WO2021245290A1 (fr) Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire
Rainer et al. Neural shading fields for efficient facial inverse rendering
WO2020157733A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
FR3066304A1 (fr) Procede de compositon d'une image d'un utilisateur immerge dans une scene virtuelle, dispositif, equipement terminal, systeme de realite virtuelle et programme d'ordinateur associes
Hog Light field editing and rendering
FR3026534B1 (fr) Generation d'un film d'animation personnalise
WO2023132261A1 (fr) Système de traitement d'informations, procédé de traitement d'informations et programme de traitement d'informations
Safin et al. Unpaired Depth Super-Resolution in the Wild
Jensen Estimating and Simulating Structure and Motion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21731750

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21731750

Country of ref document: EP

Kind code of ref document: A1