WO2021245290A1

WO2021245290A1 - Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire

Info

Publication number: WO2021245290A1
Application number: PCT/EP2021/065168
Authority: WO
Inventors: Olivier QUERBES; Véronique QUERBES
Original assignee: Querbes Olivier; Querbes Veronique
Priority date: 2020-06-06
Filing date: 2021-06-07
Publication date: 2021-12-09
Also published as: FR3111222A1; FR3111222B1

Abstract

Il est divulgué un procédé de production d'une reconstruction 3D à l'échelle d'une scène tridimensionnelle à l'aide d'un imageur monoculaire (11), ayant une phase (210) d'entraînement d'un CNN (60) comprenant la génération (211) de couples de données d'apprentissage (50) pour le CNN avec, d'une part, une carte de profondeur générée à partir d'une reconstruction 3D d'une scène tridimensionnelle obtenue par stéréoscopie multi-vues sur la base d'au moins deux images 2D de la scène par des capteurs d'images calibrés intrinsèquement et extrinsèquement, ainsi que, d'autre part, l'une des images 2D de la scène tridimensionnelle. Dans une phase de prédiction (220), on génère une surface 3D à l'échelle de la scène d'intérêt, reconstruite sur la base d'une carte de profondeur associée (35) qui est fournie par le CNN à partir d'une image 2D acquise (25).

Description

Génération de modèles 3D à l’échelle à partir d’images 2D produites par un dispositif d’imagerie monoculaire

[Domaine technique]

[0001] La présente invention se rapporte de manière générale à la vision par ordinateur (imagerie numérique) pour la reconnaissance ou la comparaison de formes, et concerne plus particulièrement un dispositif et un procédé de reconstruction tridimensionnelle (3D) à l’échelle (on dira aussi « métrique » dans le présent document) à partir d’images bidimensionnelles (2D) produites par un dispositif d’imagerie monoculaire c’est-à-dire ne comprenant qu’un unique capteur d’image. [0002] Les modes de réalisation tirent parti des progrès réalisés dans les architectures d’apprentissage profond telles que les réseaux de neurones profonds et les réseaux de neurones (ou réseaux neuronaux) convolutifs ou réseau de neurones à convolution ou encore CNN (de l’anglais « Convolutional Neural Networks ») pour réaliser des applications d’imagerie tridimensionnelle à partir d’une image 2D acquise par un dispositif d’acquisition comprenant un capteur d’image 2D unique.

[0003] L'invention trouve des applications dans divers domaines tels que, par exemple, l’imagerie bucco-dentaire, l’aide au diagnostic médical (notamment en dermatologie), le contrôle industriel (notamment dans l’automobile, l’aéronautique, etc.), le divertissement, etc. Ces exemples ne sont pas limitatifs. [Etat de la technique antérieure]

[0004] La modélisation tridimensionnelle d’objets, ou modélisation 3D, par ordinateur est devenue indispensable dans de nombreuses applications, comme le cinéma ou les jeux vidéo, la conception et le contrôle de pièces mécaniques, ou encore la médecine. [0005] L’imagerie tridimensionnelle à partir de capteurs d’image (ou capteurs 2D) passifs a ainsi de plus en plus d’applications industrielles. Lorsqu’il s’agit de dispositifs métriques, i.e. capables de produire des modèles 3D à l’échelle à partir d’images 2D, il est nécessaire de disposer d’au moins deux capteurs d’image 2D calibrés intrinsèquement et extrinsèquement. Plus précisément, il est indispensable de connaître les propriétés intrinsèques des capteurs (dont la focale et/ou le centre optique, notamment) et leurs propriétés extrinsèques (notamment la position relative des capteurs entre eux) pour connaître l’échelle métrique du modèle produit par la stéréoscopie, et pour en tenir compte dans le traitement stéréoscopique des couples d’images 2D respectivement acquises par ces deux capteurs.

[0006] Pour de multiples raisons (coût de production, volume du dispositif, etc.), cependant, il serait utile de pouvoir produire des modèles 3D métriques à partir d’un dispositif d’acquisition ne comprenant qu’un seul et unique capteur 2D passif, ou dispositif d’imagerie monoculaire.

[0007] Le document WO 2019/174377 A1 divulgue un procédé de reconstruction 3D monoculaire global d’une scène, utilisant la stéréoscopie multi-vues avec la détermination des positions de chaque image, puis la génération d’une carte de profondeur par image via un réseau de neurones (ou neuronal) convolutif ou réseau de neurones à convolution (CNN), et la projection dans l’espace pour en faire une reconstruction dense. Toutefois la technique décrite ne traite pas la notion d’image métrique, les reconstructions produites n’étant pas à l’échelle. En effet, le procédé génère pour chaque image une carte de profondeur (« Depth map » en anglais, qui est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D), mais les cartes de profondeur n’ont jamais le même facteur d’échelle entre elles, et aucune n’a le facteur d’échelle métrique. Pour une reconstruction globale cohérente, le procédé normalise les cartes de profondeur entre elles. Cette méthode, hormis le fait qu’elle ne peut reproduire le facteur d’échelle métrique qui est spécifiquement recherché, entraîne forcément une baisse de la précision.

[0008] Le document CN 108765479 A divulgue l’utilisation d’une séquence vidéo monoculaire pour estimer une carte de profondeur à une position donnée, et l’utilisation de la carte de profondeur suivante pour améliorer la première carte de profondeur. Cette technique ne procure pas, toutefois, de reconstruction 3D totale, l’objectif étant uniquement d’améliorer la carte de profondeur. En outre, la méthode d’apprentissage n’est pas exposée puisque le document décrit l’utilisation d’un CNN tout fait, déjà entraîné sur la base d’images étrangères à l’application envisagée. En outre, la qualité métrique des images produites n’est pas même évoquée.

[0009] Le document CN 108615244 A divulgue un enseignement technique comparable à celui divulgué par les deux documents ci-dessus, avec pour objectif d’obtenir une carte de profondeur la plus précise possible pour chaque image. Il n’évoque pas l’aspect métrique des images produites, et ne propose pas de reconstruction 3D. [0010] Le document CN 109087349 A divulgue l’utilisation d’une vidéo monoculaire, convertie en un nuage de points via un algorithme classique de stéréoscopie multi- vues. Chaque image est utilisée en entrée d’un CNN avec la partie du nuage de points qui s’y projette. Ces deux entrées sont utilisées pour apprentissage afin de créer une carte de profondeur en sortie la plus précise possible. Néanmoins, ce document ne propose pas non plus pas de reconstruction 3D totale, l’objectif étant là-aussi uniquement d’améliorer la carte de profondeur. En outre, la qualité métrique des images produites n’est pas non plus évoquée.

[0011] Le document CN 109146980 A divulgue l’utilisation d’un capteur monoculaire de téléphone portable en coopération avec l’accéléromètre/gyroscope, la recalibration et l’estimation de certains paramètres optiques afin de pouvoir estimer la profondeur métrique pour tout pixel. Dans cette solution, l’aspect métrique est calculé par calibration, sans notion d’apprentissage profond. En outre, ce document ne propose pas non plus pas de reconstruction 3D.

[Exposé de l’invention]

[0012] L'invention propose un dispositif et un procédé capables de pallier les inconvénients de l’art antérieur précité.

[0013] L'invention adresse en effet ces inconvénients en proposant une solution d’apprentissage d’un CNN de manière semi-supervisée, capable de générer des cartes de profondeur à l’échelle pour toute image 2D sous les deux hypothèses suivantes : - les images 2D utilisées en phase de prédiction ( i.e ., lors de l’utilisation finale du dispositif pour la reconstruction 3D) le sont avec des capteurs 2D similaires dans leurs caractéristiques intrinsèques (lesquelles comprennent par exemple la focale, le centre optique, la distorsion) à ceux qui ont été utilisés pour générer les données d’entraînement du CNN ; et - les scènes 3D à reconstruire dans le dispositif final sont de préférence similaires à celles imagées dans le but d’entraîner le CNN. Par exemple, la conception d’un dispositif monoculaire de reconstruction métrique de lésions cutanées, les images utilisées lors de l’apprentissage du CNN seraient toutes des images présentant des tissus cutanés sains ou présentant des lésions, et le dispositif ne sera pas adapté pour une autre tâche, par exemple la reconstruction d’éléments de mobilier d’une maison.

[0014] On rappelle que, dans le contexte des techniques de l'apprentissage profond utilisées dans le domaine de l’intelligence artificielle (ou IA, de l’anglais « Artificial Intelligence »), des modèles algorithmiques d’apprentissage supervisé nécessitent des connaissances spécifiques quant au problème étudié, alors que des modèles algorithmiques d’apprentissage non supervisé n’en nécessitent pas. L’apprentissage du réseau neuronal convolutif selon les modes de réalisation de l’invention est dit « semi-supervisé » en ce sens que le CNN est conçu et formé pour une application particulière, en conséquence de la seconde hypothèse ci- dessus.

[0015] Plus particulièrement, un premier aspect de l’invention propose un procédé de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle à l’aide d’un dispositif d’acquisition d’image monoculaire, comprenant :

- une phase d’entraînement d’une architecture d’apprentissage profond comprenant :

- - la génération de données d’apprentissage adaptées pour l’apprentissage de l’architecture d’apprentissage profond, lesdites données d’apprentissage comprenant des couples de données associées, lesdites données associées comprenant pour chaque couple de données, d’une part, une carte de profondeur générée à partir d’une reconstruction 3D d’une scène tridimensionnelle appartenant à une classe sémantique donnée, obtenue par stéréoscopie multi- vues sur la base d’au moins deux images 2D de ladite scène tridimensionnelle capturées sous des angles de vue respectifs par un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, ainsi que, d’autre part, l’une desdites images 2D de la scène tridimensionnelle; et,

- - l’entraînement de l’architecture d’apprentissage profond à partir des données d’apprentissage ; ainsi que

- une phase de prédiction comprenant :

- - l’acquisition, par le dispositif d’acquisition d’image monoculaire avec un unique capteur d’image calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, d’au moins une image 2D d’une scène tridimensionnelle d’intérêt, de même nature sémantique que les scènes tridimensionnelles concernées par l’acquisition d’images pour chaque couple de données associées généré durant la phase d’entraînement ;

- - la reconstruction d’une surface 3D à l’échelle de la scène tridimensionnelle d’intérêt, sur la base d’une carte de profondeur associée qui est fournie par l’architecture d’apprentissage profond en réponse à ladite image 2D acquise ; et,

- - la délivrance de la surface 3D reconstruite à l’échelle de la scène tridimensionnelle d’intérêt, pour stockage, traitement, affichage ou impression.

[0016] Grâce à l’invention, le dispositif selon des modes de réalisation produit tout le temps des cartes de profondeurs à la même échelle, qui est en l’occurrence l’échelle réelle, donc la non-connaissance de l’échelle réelle et la baisse de la précision qui est inhérente la solution décrite dans

document WO 2019/174377 A1 , par exemple, n’est pas encourue.

[0017] Avantageusement, par ailleurs, l’invention peut mettre en œuvre de la stéréoscopie multi-vues, mais elle peut aussi s’en affranchir en fonctionnant le cas échéant avec un unique capteur d’image 2D, c’est-à-dire avec un dispositif d’acquisition d’image 2D (ou imageur 2D) qui est monoculaire.

[0018] Le procédé selon le premier aspect de l'invention peut comprendre, en outre, les caractéristiques suivantes prises isolément ou en combinaison :

- l’architecture d’apprentissage profond peut être un réseau neuronal convolutif ;

- la reconstruction 3D peut être effectuée, dans la phase de prédiction, de manière totale en générant une carte de profondeur à partir d’une seule image 2D de la scène tridimensionnelle d’intérêt acquise par le dispositif d’acquisition d’image monoculaire en mode photo ;

- dans la phase de prédiction, la reconstruction 3D peut être effectuée de manière incrémentale par génération d’une série de reconstructions 3D partielles à partir d’une série d’images 2D respectives de la scène tridimensionnelle d’intérêt acquise par le dispositif d’acquisition d’image monoculaire en mode vidéo, et compilation itérative de ladite série de reconstructions 3D partielles en une reconstruction 3D générale ;

- la compilation de la série de cartes de profondeur partielles en une carte de profondeur générale peut comprendre, à chaque itération sauf la première itération, un recalage des reconstructions 3D partielles afin de minimiser itérativement la distance entre les nuages de points respectifs de la reconstruction 3D générale et de chaque reconstruction 3D partielle courante ; et/ou

- dans la phase d’entraînement, la génération de données d’apprentissage peut comprendre l’acquisition de n-uplets d’image 2D de chaque scène tridimensionnelle, où n est un nombre entier strictement supérieur à l’unité, par un dispositif d’acquisition d’image binoculaire ayant un unique capteur d’image calibré intrinsèquement et des moyens optiques calibrés avec le capteur d’image permettant l’acquisition par ledit dispositif d’acquisition d’image binoculaire, successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.

[0019] En outre, un deuxième aspect de l’invention concerne un dispositif de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle d’intérêt ayant des moyens adaptés pour la mise en œuvre de la phase de prédiction du procédé selon le premier aspect. Le dispositif comprend : - un dispositif d’acquisition d’image monoculaire, comprenant un unique capteur d’image 2D calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, pour l’acquisition d’une ou plusieurs images 2D de la scène tridimensionnelle d’intérêt en mode photo ou en mode vidéo, respectivement ;

- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond, une fois entraînée avec les données d’apprentissage dans la phase d’apprentissage ; et,

- une unité de calcul configurée pour exécuter toutes les étapes de la phase de prédiction appliquées à l’image 2D ou aux images 2D acquises par le dispositif d’acquisition d’image monoculaire.

[0020] Un troisième aspect de l’invention est relatif à un dispositif d’entraînement d’une architecture d’apprentissage profond ayant des moyens adaptés pour la mise en oeuvre de la phase d’apprentissage du procédé selon le premier aspect. L’architecture d’apprentissage profond peut être un réseau neuronal convolutif. Le dispositif comprend :

- un dispositif d’acquisition d’images binoculaire ayant un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, pour capturer au moins deux images 2D sous des angles de vue respectifs, d’une scène tridimensionnelle appartenant à une classe sémantique donnée ;

- une unité de calcul configurée pour exécuter toutes les étapes de la phase d’apprentissage appliquées aux images 2D acquises par le dispositif d’acquisition d’image binoculaire ; et,

- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond en cours d’entraînement avec les données d’apprentissage durant la phase d’apprentissage.

[0021] Un quatrième aspect de l’invention concerne un programme informatique comprenant des instructions qui, lorsque le programme informatique est chargé dans la mémoire d’un ordinateur et est exécuté par un processeur dudit ordinateur, causent la mise en oeuvre par l’ordinateur de toutes les étapes de la phase de prédiction du procédé selon le premier aspect, par un dispositif selon le deuxième aspect.

[0022] Enfin, un cinquième et dernier aspect de l’invention concerne un support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire architecture d’apprentissage profond générée par la mise en oeuvre de la phase d’apprentissage du procédé selon le premier aspect et adapté pour la mise en oeuvre de la phase de prédiction du procédé. Ce cinquième aspect concerne plus particulièrement un support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire l’architecture d’apprentissage profond générée par la mise en oeuvre de toutes les étapes de la phase d’apprentissage du procédé selon le premier aspect par un dispositif selon le troisième aspect. L’architecture d’apprentissage profond peut être un réseau neuronal convolutif.

[Description des dessins]

[0023] D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés, dans lesquels :

[Fig. 1] La figure 1 est une illustration schématique d’un procédé de reconstruction 3D à l’échelle selon des modes de mise en oeuvre de l’invention, comprenant une phase d’apprentissage consistant à entraîner un CNN avec des données d’apprentissage générées à partir de n-uplets d’images 2D obtenus par des capteurs d’images calibrés intrinsèquement et extrinsèquement, et une phase de prédiction permettant de produire des reconstructions 3D à l’aide dudit CNN et à partir d’une image 2D capturée par un unique capteur 2D passif ;

[Fig. 2] La figure 2 est un diagramme d’étapes illustrant une sous-phase de génération des données d’apprentissage effectuée lors de phase d’apprentissage du procédé de la figure 1 ;

[Fig. 3] La figure 3 est un diagramme d’étapes illustrant une sous-phase d’apprentissage profond du CNN effectuée lors de la phase d’apprentissage du procédé de la figure 1 , avec les données d’apprentissage obtenues lors de la sous-phase de la figure 2 ;

[Fig. 4] La figure 4 est un diagramme fonctionnel illustrant l’utilisation d’un réseau de neurones convolutif adapté pour générer une carte de profondeur à partir d’une image 2D, dans un dispositif monoculaire passif de reconstruction d’images 3D à l’échelle selon des modes de réalisation du second aspect de l’invention ; et, [Fig. 5] La figure 5 est un diagramme fonctionnel illustrant une architecture de CNN pouvant être utilisée dans des modes de réalisation de l’invention.

[Description des modes de réalisation]

[0024] Dans la description de modes de réalisation qui va suivre et dans les Figures des dessins annexés, les mêmes éléments ou des éléments similaires portent les mêmes références numériques aux dessins. A moins que ceci apporte un complément d’information utile à la clarté de l’exposé dans son ensemble, des éléments apparaissant plusieurs fois sur des figures différentes auxquelles il sera fait référence successivement, ne seront pas décrits à chaque fois en détail, afin de ne pas alourdir inutilement la description.

[0025] Des modes de réalisation de l’invention vont être décrits dans le contexte non limitatif de la conception d’un dispositif monoculaire de reconstruction à trois dimensions (3D), à l’échelle, pour le domaine bucco-dentaire. Un tel dispositif peut être utilisé dans un scanner intraoral monoculaire afin de générer des surfaces 3D reconstruites, à partir d’images 2D captées par un unique imageur 2D, dans le but d’offrir des solutions numériques au praticien dentiste pour des opérations prothétiques (confections de couronne, de bridge, etc.), orthodontiques (conceptions de gouttières de réalignement dentaire, etc.), par exemple.

[0026] Le but de tout traitement de reconstruction tridimensionnelle (ou reconstruction 3D) est d’obtenir les points tridimensionnels correspondant à la réalité de la scène. Il existe différents niveaux de reconstruction tridimensionnelle : reconstruction projective, reconstruction affine, et reproduction métrique.

[0027] Le premier niveau de cette hiérarchie est la reconstruction projective. A ce niveau, la reconstruction est fidèle à la réalité à une transformation projective près. Ce type de transformation est représenté par une matrice carrée non-singulière de taille 4 dans l’espace tridimensionnel. Du fait de la projection, cette transformation est définie à un facteur d’échelle près. Elle possède donc 15 degrés de liberté. Il est possible d’obtenir la reconstruction projective à partir d’un ensemble de correspondances entre deux vues (ou images 2D) grâce à une décomposition en matrice fondamentale.

[0028] Le niveau directement supérieur est la reconstruction affine. Elle est fidèle à la réalité à une transformation affine près. Une telle transformation comporte 12 degrés de liberté. Pour passer du niveau projectif au niveau affine, il faut restituer le parallélisme. Cela passe par la détermination d’un plan particulier. Dans l’espace projectif, il s’agit du plan défini par l’ensemble des points dont le facteur d’échelle des coordonnées homogènes est nul. Ceci correspond donc à l’ensemble des points d’“intersection” de droites parallèles. C’est-à-dire le point de fuite situé à l’infini. Il suffit alors de déterminer les coordonnées du plan contenant les points de fuite puis d’estimer la transformation projective qui l’appliquera à sa position canonique. Une fois les coordonnées du plan déterminées dans l’espace projectif, la transformation est de la forme d’une matrice. Seules les distances selon une même direction peuvent être mesurées sur une reconstruction 3D affine.

[0029] Le troisième et dernier niveau est la reconstruction métrique. Il consiste à restituer les angles entre les lignes des formes des objets dans l’image, lors de la reconstruction. Ce type de reconstruction est fidèle à la scène réelle à une similarité près. Les similarités sont des compositions de rotations (3 degrés de liberté), de translations (3 degrés de liberté) et d’homothéties (1 degré de liberté). Elles comportent donc 7 degrés de liberté. Par convention, on désigne par R la matrice de rotation, T le vecteur de translation, et H le facteur d’échelle de l’homothétie. Pour permettre une reconstruction métrique, il faut identifier une conique particulière W appelée la conique absolue. Pour passer d’une reconstruction affine à une reconstruction métrique, il faut déterminer la transformation affine qui placera la conique absolue sur sa position canonique.

[0030] Lorsque l’échelle est fixée, c’est-à-dire lorsque le facteur d’échelle H est connu, les distances peuvent être mesurées de façon absolue. Le facteur d’échelle H peut être connu, simplement, en disposant d’une distance de référence dans la scène. La reconstruction métrique est, dans ce cas particulier, aussi appelée reconstruction euclidienne, mais ce n’est qu’un cas particulier de reconstruction métrique dans laquelle une distance de référence dans la scène est connue car pour passer d’une reconstruction métrique au sens strict à ce qu’on appelle une reconstruction euclidienne, il suffit de réaliser une mise à l’échelle.

[0031] Dans le contexte de l’invention, on s’intéresse uniquement à une reconstruction métrique dans laquelle le facteur d’échelle est connu (ou reconstruction euclidienne). On parle aussi, de ce fait, d’une reconstruction 3D à l’échelle. Les termes et expressions « métrique », « à l’échelle » ou « à l’échelle réelle », utilisés en référence à une reconstruction 3D, sont de ce fait à considérer comme étant synonymes les uns des autres dans le cadre de la présente description. Ainsi, la reconstruction 3D métrique au sens de l’invention, ou « à l’échelle », est connue à une transformation rigide près, c’est-à-dire la composition d’une rotation R (3 degrés de liberté) et d’une translation T (3 degrés de liberté). Cette transformation n’a donc que 6 degrés de liberté.

[0032] Avant d’entamer la description de modes de réalisation détaillés, il apparaît utile de préciser la définition de certaines expressions ou de certains termes qui y seront employés. A moins qu’il n’en soit disposé autrement, ces définitions s’appliquent nonobstant d’autres définitions que l’homme du métier peut trouver dans certains ouvrages de la littérature spécialisée. [0033] Une « image », ou « vue », ou encore « balayage » (« scan » en anglais), est constituée d'un ensemble de points de la scène tridimensionnelle réelle. Pour une image 2D acquise par un dispositif d’acquisition d’image, ou dispositif imageur (par exemple un capteur CCD ou un capteur CMOS), les points concernés sont les points de la scène réelle projetés dans le plan de la focale du capteur 2D servant à acquérir l’image 2D, et sont définis par les pixels de l’image 2D. Pour une surface 3D reconstruite (aussi appelée « reconstruction 3D »), ce terme désigne le produit ou résultat du traitement de reconstruction 3D, les points concernés étant un nuage de points 3D obtenu par une transformation d’une « carte de profondeur » (voir définition donnée plus bas), ou par triangulation dans le cas de la stéréoscopie. Un tel nuage de points définit un squelette de la scène tridimensionnelle. Et un maillage 3D de ce nuage de points, par exemple un maillage de points 3D triangulés, peut en définir une enveloppe.

[0034] Un « n-uplet » d’images, où n est un nombre entier supérieur ou égal à l’unité, est un ensemble de n images prises simultanément par le ou les capteurs d’un dispositif d’acquisition d’images (ou dispositif d’imagerie). En général, le dispositif d’imagerie possède deux capteurs, permettant de générer un doublet (i.e., un 2- uplet) d’images de la même scène tridimensionnelle respectivement acquises simultanément par chacun de ces deux capteurs. Mais il peut posséder trois, quatre, cinq, etc. capteurs permettant d’acquérir un triplet {i.e., un 3-uplet), un quadruplet {i.e., un 4-uplet), un quintuplet {i.e., un 5-uplet), etc. d’images de la même scène, et qui sont respectivement acquises simultanément par chacun desdits capteurs. Toutefois, le dispositif peut également ne comprendre qu’un unique capteur associé à un arrangement de moyens optiques à base de miroir(s) et éventuellement de prisme(s) calibrés, permettant d’acquérir successivement plusieurs images de la même scène tridimensionnelle vues sous des angles de vue respectifs différents.

[0035] Un dispositif d’acquisition d’image « monoculaire » est un dispositif n’ayant qu’un unique capteur d’image et capable de n’acquérir des images d’une scène tridimensionnelle que sous un angle de vue unique seulement à une position du dispositif donnée.

[0036] Inversement, un dispositif d’acquisition d’image « binoculaire » est un dispositif ayant un ou plusieurs capteurs d’image et capable d’acquérir des images d’une même scène tridimensionnelle sous des angles de vue respectif différents à une position du dispositif donnée. Si le dispositif ne comprend qu’un unique capteur d’image, celui-ci est associé à des moyens optiques (miroir(s) et/ou prisme(s)) de manière à être capable d’acquérir successivement plusieurs images de la même scène tridimensionnelle vues sous des angles de vue différents.

[0037] Les « caractéristiques intrinsèques » d’un capteur sont la focale, le centre optique, et la distorsion du capteur. [0038] Les « caractéristiques extrinsèques » d’un capteur définissent la position et l’orientation du capteur relativement à un autre capteur. Dans le contexte de la présente description, une « échelle » est le rapport entre la mesure d'un objet dans une scène réelle et la mesure correspondante dans sa représentation 3D. Une reconstruction 3D est dite « à l’échelle » lorsque ce rapport est égal à l’unité. Une mesure réalisée dans la reconstruction 3D donne donc une valeur conforme à la même mesure qui serait réalisée dans la scène 3D réelle. Ceci est très utile pour les utilisateurs, notamment les praticiens en dermatologie ou en chirurgie dentaire, par exemple.

[0039] Une « carte de profondeur » (« Depth map » en anglais) associée à une image 2D, est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D. En pratique, il s’agit d’un ensemble de valeurs, codées sous la forme de niveaux (ou nuances) de gris, respectivement associées à chaque pixel p, de l’image 2D : plus la distance entre le point de la scène tridimensionnelle et le plan de l’image 2D est importante, et plus le pixel est sombre.

[0040] Une « carte de profondeur métrique » ou « carte de profondeur à l’échelle » associée à une image 2D est une représentation en 2D de l’information 3D à l’échelle qui a été reconstruite à partir (notamment) de ladite image 2D, ladite représentation en 2D étant générée par reprojection de la reconstruction 3D dans l’espace 2D du capteur ayant servi à capturer ladite image 2D.

[0041] Un « réseau de neurones (ou réseau neuronal) convolutif » ou « réseau de neurones (ou réseau neuronal) à convolution » ou encore CNN (de l’anglais « Convolutional Neural Networks »), est un type de réseau de neurones artificiels acycliques (« feed-forward », en anglais), consistant en un empilage multicouche de perceptrons, dont le but est de prétraiter de petites quantités d'informations. Un

CNN se compose de deux types de neurones artificiels, agencés en « strates » ou « couches » traitant successivement l'information :

- les neurones de traitement, qui traitent une portion limitée de l'image (appelée « champ réceptif ») au travers d'une fonction de convolution ; et, - les neurones de mise en commun (totale ou partielle) des sorties, dits neurones de « pooling » (qui signifie « regroupement » ou « mise en commun », en anglais), qui permettent de compresser l'information en réduisant la taille de l'image intermédiaire (souvent par sous-échantillonnage).

L'ensemble des sorties d'une couche de traitement permet de reconstituer une image intermédiaire, qui sert de base à la couche suivante. Un traitement correctif non-linéaire et ponctuel peut être appliqué entre chaque couche pour améliorer la pertinence du résultat. Les CNN connaissent actuellement de larges applications dans le domaine de la reconnaissance d'image.

[0042] La figure 1 est un schéma simplifié illustrant les différentes phases du procédé selon des modes de réalisation de l’invention. Comme représenté, le procédé comprend essentiellement deux phases, à savoir :

- une phase d’apprentissage 210, qui est elle-même divisée en une sous-phase 211 de génération de données d’apprentissage, d’une part, et d’une sous-phase d’apprentissage profond, d’autre part ; ainsi que,

- une phase de prédiction 220.

[0043] Lors de la phase d’apprentissage 210, qui est par exemple mise en oeuvre en laboratoire, on utilise un dispositif d’acquisition d’images binoculaire 12 comprenant au moins deux capteurs d’image, par exemple deux capteurs d’imagerie 2D passive, calibrés intrinsèquement et extrinsèquement. Dans une variante (non représentée), il est possible de n’utiliser qu’un unique capteur d’image calibré intrinsèquement, en combinaison avec un dispositif optique associé, également calibré, comprenant un ou plusieurs éléments optiques parmi des miroirs et des prismes, notamment, permettant d’acquérir successivement plusieurs images de la même scène prises sous des angles de capture respectifs différents. Dans ce dernier cas, le capteur et son dispositif optique associé sont par nature calibrés extrinsèquement, du fait de la connaissance a priori de l’agencement des éléments optiques par rapport au capteur d’image. Dit autrement, dans le cas d’un unique capteur d’image calibré intrinsèquement, celui-ci est utilisé en combinaison avec des moyens optiques calibrés intrinsèquement et calibrés extrinsèquement avec ledit capteur d’image, ce qui permet l’acquisition par le dispositif d’acquisition d’image binoculaire 12 ainsi formé, successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.

[0044] Lors de la deuxième phase 220, dite phase de prédiction, on utilise un dispositif d’acquisition d’images 11 avec un seul capteur calibré intrinsèquement (/.e., dont la focale, le centre optique et la distorsion sont connus), et identique à ceux du dispositif d’acquisition d’images 12 utilisé dans la première phase 210. Ce dispositif d’acquisition d’images 11 est donc avantageusement moins cher, et également moins encombrant que le dispositif 12 utilisé dans la première phase 210. Il est ainsi mieux adapté à la fabrication et à la vente de dispositifs de reconstruction d’images 3D à échelle industrielle, pour des utilisations commerciales. Son moindre encombrement autorise aussi son utilisation dans des applications de chirurgie buccale ou dentaire, par exemple, pour la prise d’images directement dans la bouche d’un patient.

[0045] Comme déjà indiqué plus haut, la phase d’apprentissage 210 est elle-même scindée en deux sous-phases :

- une sous-phase 211 de génération de données d’apprentissage ; et,

- une sous-phase 212 d’apprentissage profond adaptée pour entraîner un réseau de neurones convolutif (CNN) à l’aide d’une base de données 50 contenant les données d’apprentissage générées lors de la sous-phase 211.

[0046] Lors de la première sous-phase 211 , on utilise le dispositif 12 d’acquisition d’images à deux (ou plus) capteurs d’image 2D pour reconstruire, par stéréoscopie classique, une pluralité de scènes tridimensionnelles appartenant à une classe sémantique donnée. Ces reconstructions 3D sont générées à partir d’une série de couples d’images 2D acquises par le dispositif 12. Ces couples d’images 2D sont, à chaque fois, des vues de la scène tridimensionnelle prises sous des angles respectifs différents. Au fur et à mesure de chacune des reconstructions, on enregistre chaque image 2D ayant participé à la reconstruction, en association avec la carte de profondeur correspondante qui est générée par stéréoscopie multi-vues à partir des couples d’images 2D.

[0047] Lors de la phase d’apprentissage profond 212, on utilise les techniques classiques d’apprentissage profond par convolution pour bâtir un réseau de neurones profond 50 ou réseau CNN. Ce réseau CNN apprend à associer à une image 25 parmi les images 2D acquises par le dispositif 12 lors de la sous-phase 211 de la phase d’apprentissage 210, sa carte de profondeur métrique 2D correspondante 35 (étant rappelé que « métrique » veut dire « à l’échelle » dans le contexte de la présente description). Lorsque ce réseau CNN a terminé son apprentissage, il sait produire, pour une image 2D d’une scène tridimensionnelle d’intérêt quelconque (acquise avec un capteur d’image monoculaire 11 ayant les mêmes caractéristiques intrinsèques que le capteur d’image 12), une carte de profondeur métrique, si tant est que l’image ait été acquise avec un capteur ayant les mêmes propriétés intrinsèques (focale, centre optique, et distorsion) que les capteurs utilisés lors de la phase de génération. L’autre restriction est que le CNN ne sait donner de bons résultats que pour des scènes tridimensionnelles similaires, c’est- à-dire appartenant à la même classe sémantique, à celles rencontrées durant la sous-phase 311 de génération des données d’apprentissage (du moins en théorie, les réseaux CNN ayant par nature une forte capacité à généraliser leur apprentissage).

[0048] Enfin, dans la phase de prédiction 220, le dispositif de génération d’images 3D reconstruites utilise un seul capteur 2D passif 11 , qui image une scène tridimensionnelle d’intérêt, par exemple une zone de la peau d’un patient ou une partie d’une arcade dentaire d’un patient. Dans ce dispositif, une unité de calcul héberge le réseau de neurones convolutif 50 qui a été entraîné lors de la seconde sous-phase 212 de la première phase 210. Ce CNN permet alors de fournir une carte de profondeur métrique 35 à associée à chaque image 2D acquise 25. Ce dispositif est donc à même de reconstruire une surface 3D à l’échelle d’une scène tridimensionnelle d’intérêt à partir d’un seul capteur 2D passif acquérant des images 2D en mode « one-shot » (/.e., en mode photo) ou en mode rafale (/.e., en mode vidéo).

[0049] On va maintenant décrire plus en détails, en référence au diagramme d’étapes de la figure 2, la sous-phase 211 de génération des données d’apprentissage du CNN. La figure illustre de manière schématique une façon de générer des données d’apprentissage métriques à partir des n-uplets d’images acquis par le dispositif 12 d’acquisition d’images 2D (ou imageur) binoculaire de la Figure 1.

[0050] Tout d’abord, à l’étape 221 , au moins deux images 2D notées 21 et 22, sont acquises, par exemple simultanément, par chacun des deux capteurs, respectivement, de l’imageur 12 à deux capteurs calibrés intrinsèquement et extrinsèquement. Ces deux images forment un couplet 21 ,22 d’images 2D de la même scène 3D. Plus de deux images peuvent être acquises, simultanément ou successivement, selon la composition de l’imageur 12, c’est-à-dire selon le nombre de capteurs qu’il incorpore. De manière générale, on recueille à l’étape 221 des n- uplets d’images comme le couplet d’image 21 ,22, où n est un nombre entier strictement supérieur à l’unité. Ces n images ont en commun d’être des images

2D de la même scène 3D acquises soit successivement avec un unique capteur mais sous plusieurs angles de vue en respectant la notion de calibration extrinsèque des prises de vue, soit avec un ou plusieurs capteurs calibrés intrinsèquement et extrinsèquement. [0051] A l’étape 222, on utilise un algorithme 622 de type stéréoscopie multi-vues, qui est appliqué sur l’ensemble des couplets d’images 21 ,22 ou (dans le cas plus général) sur l’ensemble des n-uplets d’images 2D. Ce type d’algorithme est connu dans la littérature et bon nombre de librairies sont accessibles à l’homme du métier pour se les procurer (voir l’article par R. A. Newcombe, S. J. Lovegrove et A. J. Davison, "DTAM: Dense tracking and mapping in real-time", 2011 International Conférence on Computer Vision, Barcelona, 2011 , pp. 2320-2327 ou encore l’article par A. Geiger, J. Ziegler and C. Stiller, " StereoScan: Dense 3d reconstruction in real- time" 2011 IEEE Intelligent Vehicles Symposium (IV), Baden-Baden, 2011 , pp. 963-968). Ces algorithmes sont adaptés au cas d’un imageur 12 ayant un capteur unique ou au cas d’un imageur 12 ayant une pluralité de capteurs. Ce genre d’algorithmes prend en entrée les n-uplets d’images 2D, et génère en sortie un modèle 3D, référencé 23, de la scène imagée via les n-uplets.

[0052] L’homme du métier appréciera que dans le cas où le dispositif d’acquisition d’images 12 ne comprend qu’un seul capteur, le modèle 3D obtenu 23 n’est pas métrique, et donc la carte de profondeur 25 générée à l’étape 224 non plus. Pour rendre l’un et l’autre métriques, il est possible de remettre à l’échelle le modèle 3D obtenu. Ceci peut être fait par exemple en le redimensionnant pour que les dimensions de certains éléments contenus dans l’image soient identiques à des mesures physiques réalisées directement sur la scène 3D réelle. Cette opération manuelle étant évidemment fastidieuse, les modes de réalisation avec un dispositif d’acquisition d’images 12 ayant deux capteurs ou plus sont préférés.

[0053] Par ailleurs, on notera qu’un algorithme comme l’algorithme 622 de stéréoscopie multi-vues génère également en sortie la position relative de l’imageur 12 par rapport à la scène 3D virtuelle (c’est-à-dire la scène 3D modélisée par le modèle 23) à tous les moments où cet imageur a acquis un des n-uplet d’images 2D ayant servi à générer le modèle 3D concerné 23.

[0054] De fait, les positions relatives des capteurs dans la scène 3D virtuelle sont utilisées, à l’étape 223, par un algorithme de repositionnement 623 pour retrouver les positions métriques des capteurs. Dans le cas d’un dispositif à plusieurs capteurs, produisant des reconstructions à l’échelle, les positions des capteurs donnés par l’algorithme 622 sont déjà métriques. Dans le cas d’un dispositif ne comportant qu’un seul capteur, dont la reconstruction a été redimensionnée pour devenir métrique, l’algorithme 623 applique exactement le même redimensionnement aux positions de capteurs afin de leur donner un positionnement métrique. En sortie de l’algorithme 623, on obtient donc des positions métriques 21a et 22a des capteurs ayant produit les images 2D, respectivement 21 et 22. [0055] A partir du modèle 3D obtenu 23 et des positions relatives 21 a et 22a des images 2D de départ 21 et 22, respectivement, ayant servi à le produire à l’étape 222, on peut générer à l’étape 224 une carte de profondeur métrique {i.e., à l’échelle réelle), référencée 225, pour toute image 2D fournie en entrée de l’algorithme 622 utilisé à ladite étape 222.

[0056] On obtient ainsi des couples 521 et 522, appelés dans la suite couples d’apprentissage, composés chacun d’une image 2D telle que les images 21 et 22 produites à l’étape 221 par l’imageur 12, d’une part, et d’une carte de profondeur métrique 25 correspondante, d’autre part. A chaque itération du procédé, on obtient au minimum deux tels couples d’apprentissage (et plus si plus d’images 2D sont produites à l’étape 221 et servent à l’étape 222 pour générer le modèle 3D 23 de la scène), Chaque image 21 et 22 a sa propre carte de profondeur, 21 b et 22b, respectivement. Pour une position donnée du système binoculaire, on obtient donc deux couples formés chacun d’une image 2D et de sa carte de profondeur correspondante, une pour chaque capteur. L’algorithme est itéré un grand nombre de fois afin de produire une quantité importante de tels couples d’apprentissage, par exemple des milliers voire quelques dizaines de milliers de couples d’apprentissage.

[0057] A l’étape 225, les couples d’apprentissage 521 ,522 sont stockés dans une mémoire de manière à former une base de données d’apprentissage 50. Cette base de données 50 est adaptée pour l’entraînement d’un réseau de neurones profond (CNN), ainsi qu’il va maintenant être décrit en référence à la figure 3.

[0058] La figure 3 illustre de façon schématique le déroulement de la sous-phase 212 d’apprentissage profond de la figure 2. Cette sous-phase réalise la conception d’un CNN, référencé 60, pouvant prédire une carte de profondeur métrique 351 à partir d’une unique image 2D d’une scène 3D quelconque acquise par un dispositif d’acquisition monoculaire, c’est-à-dire ne comprenant qu’un seul capteur d’image, comme c’est le cas de l’imageur 11 de la figure 1. Pour cela, la solution proposée selon les modes de réalisation de l’invention est une solution d’apprentissage du réseau de neurones convolutif 60 de manière semi-supervisée. La notion de semi- supervision se réfère au fait qu’on a monté un procédé à part pour générer des données d’apprentissage : il y a donc un transfert « manuel » de données d’un algorithme à l’autre, i.e. de la sous-phase 211 à la sous-phase 212 de la phase d’apprentissage 210 de la figure 1 mais, comme l’homme du métier l’appréciera, la génération de données d’apprentissage reste automatique. Par opposition, la non-supervision se réfère au fait que le réseau trouverait seul, par analyse des données d’entrée, des règles d’inférence permettant de produire des cartes de profondeur, ce qui est difficilement concevable. Et la supervision totale se réfère au fait de donner des données d’apprentissage non issues d’un processus automatique mais issues d’un processus entièrement manuel, par exemple en créant des cartes de profondeur « à la main » par mesure physique, ce qui n’est pas le cas ici non plus. L’apprentissage semi-supervisé selon les modes de réalisation est réalisé à partir des couples d’apprentissage stockés dans la base de données d’apprentissage 50 et qui ont été produits lors de la sous-phase 212 de génération des données d’apprentissage comme décrit ci-dessus en référence à la figure 2. Cet apprentissage est mis en oeuvre par un calculateur adapté, par exemple un processeur graphique (ou GPU, de l’anglais « Graphical Processing Unit ») capable de réaliser de grandes quantités de calcul.

[0059] Une fois entraîné, le réseau de neurones 60 est capable de générer, dans la phase de prédiction 220 du procédé, des cartes de profondeurs métriques 351 pour toute image 2D. Ceci est possible sous la condition que les images 2D utilisées dans la phase de prédiction le soient avec des capteurs similaires dans leurs caractéristiques intrinsèques (i.e., qu’ils aient la même focale, le même centre optique, et la même distorsion) à ceux qui ont été utilisés lors de la sous-phase 211 pour générer les données d’apprentissage {i.e. les couples d’entraînement comme les couples 521 ,522 décrit en référence à la figure 2) du réseau de neurones 60.

[0060] De préférence, les scènes 3D à reconstruire par le dispositif commercial dans la phase de prédiction 220 sont similaires à celles imagées dans la phase d’apprentissage 210, et plus particulièrement dans la sous-phase 211 de génération des données d’apprentissage, dans le but d’entraîner le CNN 60. Par exemple, si l’on doit concevoir un dispositif monoculaire de reconstruction métrique de lésions cutanées, les images utilisées lors de l’apprentissage du CNN sont préférentiellement toutes des images présentant des tissus cutanés sains ou présentant des lésions. Comme précédemment indiqué, le dispositif obtenu ne serait que peu adapté pour une autre tâche, par exemple la reconstruction d’éléments de mobilier d’une maison. Cette notion de similarité entre les images 2D utilisées dans la phase de prédiction 220 avec les images 2D utilisées dans la sous-phase 211 de génération des données d’apprentissage, est une notion relative, étant donné les caractéristiques d’apprentissage des réseaux de neurones convolutifs. Dit autrement, l’homme du métier appréciera que les images doivent être de même classe sémantique, c’est-à-dire représenter des scènes de même nature, i.e., montrant des objets similaires dans l’image (par exemple dans les deux cas des visages, ou des lésions cutanées, ou des arcades dentaires de patients, ou des pièces mécaniques identiques ou similaires, etc.).

[0061] Le diagramme fonctionnel de la figure 4 montre de manière très schématique un dispositif 40 d’imagerie monoculaire.

[0062] Le dispositif 40 comprend un dispositif 11 de capture d’image (ou imageur) monoculaire, c’est-à-dire ne comprenant qu’un unique capteur d’image, comme le dispositif 11 montré à la figure 1 pour illustrer la phase de prédiction 220, par exemple un capteur passif. Il peut s’agir d’un appareil photo, ou d’une caméra, d’un capteur en technologie CMOS ou en technologie CCD, fonctionnant en noir et blanc ou en couleurs. Une scène 3D statique peut être imagée par le dispositif de capture d’image monoculaire. Ce dispositif peut acquérir des images 2D en mode photographie (une seule image 2D à la fois) ou en mode vidéo (plusieurs images 2D au cours du temps selon une fréquence quelconque).

[0063] Le dispositif 40 comprend une unité de calcul 41 , par exemple un microprocesseur d’un ordinateur (« Central Processing Unit ») ou un groupe de processeurs par exemple au sein d’une carte graphique (GPU), configuré pour exécuter un logiciel de traitement de données numériques.

[0064] Le dispositif 40 comprend en outre un système 42 de stockage d’informations numériques, par exemple un disque dur en technologie SSD (de l'anglais « solid- state drive ») ou autre, adapté pour stocker de manière permanente le réseau de neurones convolutif 60 généré lors de la phase d’apprentissage 210 du procédé, et plus particulièrement lors de la sous-phase 212. L’homme du métier appréciera que le système de stockage peut être physiquement inclus directement dans le dispositif 40, ou bien être déporté par exemple sur un ordinateur ou un serveur de calcul distant auquel le dispositif 40 peut accéder par un réseau de communication ad-hoc, par exemple par un intranet ou par l’Internet, par exemple via un réseau Ethernet ou un réseau de radiocommunications sans fils comme un réseau 3G- LTE, 4G ou 5G, sans que cela n’affecte le processus.

[0065] Dans tous les cas, le système 42 de stockage d’informations peut être adapté pour stocker en mémoire, en outre, les images 2D acquises par le dispositif 40 lors de la phase de prédiction, ainsi que d’autres données, comme les reconstructions 3D générées à partir desdites images et du réseau de neurones convolutif 60. Dit autrement, le système 42 de stockage d’informations peut mémoriser les nouveaux couples formés d’une image 2D et de sa reconstruction 3D associée telle que produites par le réseau de neurones 60. Ces données peuvent aussi être collectées par, ou transmises au fabricant du dispositif, à intervalles de temps. Cela permet de compléter la base de données d’apprentissage, pour des mises à jour du réseau de neurones convolutif 60, soit automatiquement, soit à l’occasion d’une mise à niveau complète du logiciel du dispositif 40.

[0066] Le traitement de données numériques mis en oeuvre par le calculateur 41 permet de transformer le flux de données entrant, à savoir les images 2D comme l’image 25, en une reconstruction 3D sous la forme d’une carte de profondeur 35. Il utilise à cet effet le réseau de neurones convolutif 60 qui a été chargé par le fabricant du dispositif dans le système 42 de stockage d’informations avant la livraison du dispositif 40 au client. On rappelle qu’une telle carte de profondeur est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D d’origine. Cette transformation de l’image 2D vers une carte de profondeur peut être faite grâce au réseau de neurones convolutif 60 entraîné comme il a été décrit en référence à la figure 3, avec les données d’apprentissage générées comme il a été décrit en référence à la figure 2.

[0067] Dans les réalisations connues, dans l’art antérieur, de ce genre de technique de reconstruction 3D (consistant à produire une carte de profondeur) que l’homme du métier peut trouver dans la littérature (voir l’article par Eigen David, Puhrsch Christian et Fergus Rob, "Depth Map Prédiction from a Single Image using a Multi- Scale Deep Network, NIPS'14: Proceedings of the 27th International Conférence on Neural Information Processing Systems - Volume 2, décembre 2014 pages 2366-2374), l’information métrique est perdue si un imageur monoculaire est utilisé pour capter une image 2D de la scène à reconstruire, du fait que la carte de profondeur est adimensionnelle en sorte que les informations de distance ne sont que relatives. Grâce à la mise en oeuvre de l’invention, au contraire, la carte de profondeur 35 est à l’échelle réelle. La résolution de cette problématique est faite en amont, dans la phase d’apprentissage 210 du réseau de neurones convolutif, qui a été décrite dans ce qui précède.

[0068] En outre, l’homme du métier appréciera qu’un dispositif utilisable pour l’acquisition et la génération de données d’apprentissage comme décrit plus haut en référence au diagramme d’étapes de la figure 2 peut être structurellement similaire au dispositif commercial de la figure 4, en ce sens qu’il intègre le même type de capteur (même focale / centre optique / coefficients de distorsion), une unité de calcul et une mémoire de stockage de masse. La différence réside dans le fait que le dispositif de la figure 2 peut intégrer non seulement un mais aussi plusieurs capteurs, qui sont tous du même type de manière à présenter les mêmes caractéristiques de calibrage intrinsèque. Dans le cas de plusieurs capteurs, ces capteurs sont en outre calibrés extrinsèquement, autrement dit leurs positions relatives les uns par rapport aux autres est connue.

[0069] Pour finir, le dispositif 40 de la figure 4 comprend une unité de restitution visuelle, par exemple un écran d’ordinateur 43 ou similaire, pour afficher la reconstructions

3D de manière visible par l’utilisateur. A la place ou en complément, le dispositif peut aussi comprendre une imprimante 3D, pour imprimer la surface 3D reconstruite sur tout support approprié.

[0070] Le processus de reconstruction 3D d’une scène statique à partir des associations entre une image 2D et une carte de profondeur qui sont produites par le réseau de neurones convolutif 60 peut se faire de plusieurs manières.

[0071] Dans certains modes de mise en oeuvre, la reconstruction 3D affichée sur l’écran 43 est effectuée totalement à partir d’une seule image 2D. C’est notamment le cas d’une prise de vue en mode photo par l’imageur 11 . Dans cette mise en oeuvre, une seule image 2D génère une carte de profondeur. Cette carte de profondeur peut avantageusement être transformée en une reconstruction 3D sous la forme d’un nuage de points 3D ou d’un maillage 3D triangulé.

[0072] Dans d’autres modes de mise en oeuvre, la reconstruction 3D affichée sur l’écran 43 est effectuée de manière incrémentale. C’est le cas d’une prise de vues en mode vidéo, produisant une séquence (ou un flux) d’images 2D de la scène 3D à reconstruire. Dans cette mise en oeuvre, chaque image du flux d’images 2D génère une carte de profondeur associée respective. L’ensemble des cartes de profondeurs ainsi générées peuvent être compilées en une seule reconstruction 3D générale, qui agrège l’ensemble des cartes de profondeur. Cette agrégation de cartes de profondeurs peut se faire de diverses manières, parmi lesquelles :

- soit une estimation des positions relatives images 2D et donc des cartes de profondeur par un algorithme classique de type SLAM (de l’anglais « Simultaneous Localisation And Mapping »). Une fois les positions relatives connues, toutes les cartes de profondeur peuvent être positionnées dans un espace commun, générant ainsi une reconstruction 3D globale ;

- soit un recalage 3D des reconstructions 3D partielles de chaque carte de profondeur. Le recalage 3D peut se faire par exemple par un algorithme classique de type ICP (de l’anglais « Itérative Closest Point » ou « Itérative Corresponding Point »). [0073] La surface 3D reconstruite délivrée par le dispositif de la figure 4 est une surface

3D à l’échelle de la scène tridimensionnelle d’intérêt. Elle peut être stockée dans un système de stockage de données, faire l’objet d’un traitement d’image, être affichée ou être imprimée, selon les besoins de l’application.

[0074] L’homme du métier appréciera que même si l’exemple d’un réseau neuronal convolutif (CNN) a été décrit dans ce qui précède, l’invention s’applique à tout type d’architecture d’apprentissage profond, tel que par exemple les réseaux de neurones récurrents (en anglais « Récurrent Neural Networks », ou RNN). Dit autrement, l’exemple du CNN n’est pas limitatif, le CNN pouvant être remplacé par tout type d’architecture d’apprentissage profond.

[0075] Dans un mode de réalisation illustré par la figure 5, l’architecture d’apprentissage profond 60 est un réseau de neurones convolutif qui peut avoir une structure tout à fait classique. Ce type de CNN est disponible dans des librairies connues par l’homme du métier qui sont en accès libre. En entrée, une image 25 en deux dimensions est fournie sous la forme d’une matrice de pixels. Elle a deux dimensions pour une image en niveaux de gris. Le cas échéant, la couleur est représentée par une troisième dimension, de profondeur 3 pour représenter les couleurs fondamentales [Rouge, Vert, Bleu].

[0076] La figure 5 montre un exemple particulier de CNN, qui est en fait un FCN (de l’anglais « Fully Convolutional Network ») inspiré de l’article par J. Long, E. Shelhamer et T. Darrell, "Fully convolutional networks for semantic segmentation" , IEEE Conférence on Computer Vision and Pattern Récognition (CVPR), Boston,

MA, 2015, pp. 3431-3440. Ce FCN comporte deux parties bien distinctes, selon une architecture encodage/décodage.

[0077] La première partie du FCN d’encodage est la partie convolutive proprement dite. Elle comprend, la « couche de traitement convolutif » 51 , qui possède une succession de filtres, ou « noyaux de convolution », appliqués en strates. La couche de traitement convolutif 51 fonctionne comme un extracteur de caractéristiques des images 2D admises en entrée du CNN. Dans l’exemple, l’image d’entrée 25 est passée à travers la succession des noyaux de convolution, créant à chaque fois une nouvelle image appelée carte de convolution. Chaque noyau de convolution possède deux couches de convolution 511 et 512, et une couche 513 de réduction de la résolution de l’image par une opération de mise en commun aussi appelée opération de maximum local (« maxpooling », en anglais).

[0078] La sortie de la partie convolutive 51 est ensuite fournie en entrée d’une ultime couche de convolution 520 captant tout le champ d’action visuel de la couche précédente, et mimant ainsi une couche entièrement connectée (couche « fully connected » en anglais). [0079] Enfin, une couche de déconvolution 530 finale produit en sortie une carte de profondeur qui, grâce à la mise en oeuvre des modes de réalisation, est une carte de profondeur à l’échelle.

[0080] L’homme du métier appréciera que, ainsi qu’il est connu, le réseau de neurones fonctionne d’autant mieux dans la phase de prédiction si l’on travaille sur un problème “proche” du problème initial sur lequel le réseau a été entraîné. Dans le contexte de l’invention, cela signifie que les scènes 3D à reconstruire par le dispositif d’acquisition 40 de la figure 4 avec un réseau de neurones convolutif 50 comme représenté à la figure 5 qui a été entraîné comme décrit plus haut en référence aux figures 1 , 2 et 3, sont de préférence similaires à celles imagées dans le but d’entraîner ledit réseau de neurones convolutif (CNN). On rappelle que, par « images similaires » on entend des images se trouvant dans le même champ sémantique. Par exemple, si le but est de concevoir un dispositif monoculaire de reconstruction à l’échelle de lésions cutanées, les images utilisées lors de l’apprentissage du CNN seraient toutes des images présentant des tissus cutanés sains ou présentant des lésions. De même, si le but est de concevoir un dispositif monoculaire passif de reconstruction à trois dimensions (3D) pour la reconstruction tridimensionnelle d’une arcade dentaire, le dispositif 40 est de préférence entraîné avec des images passives d’arcades dentaires. Inversement, un tel dispositif ne serait pas adapté pour une autre tâche, par exemple la reconstruction 3D d’éléments de mobilier d’une maison d’habitation.

[0081] La présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en oeuvre par la personne du métier à la lecture de la présente description et des dessins annexés.

[0082] Des exemples non limitatifs d’application industrielle de l’invention sont les suivants, en dermatologie, en matière de contrôle industriel, ou dans le domaine du divertissement, respectivement.

[0083] En dermatologie, en effet, l’invention permet de concevoir un dermatoscope avec un seul capteur capable de reconstruire des lésions cutanées en 3D à l’échelle. Cela demande de concevoir en premier lieu un dermatoscope avec deux capteurs, pour reconstruire une pluralité de lésions cutanées en 3D par stéréoscopie. Dans un deuxième temps, une fois le réseau CNN éduqué à reconstruire les cartes de profondeur correspondantes, ce réseau CNN peut être transféré dans le dispositif destiné à la commercialisation, ne comportant lui qu’un seul capteur 2D afin de réduire le coût du dispositif.

[0084] Pour une application dans le contrôle industriel, le même principe s’applique pour les dispositifs industriels destinés à reconstruire de manière métrique, c’est-à-dire à l’échelle réelle, des pièces industrielles (dans le secteur de l’aviation, de l’automobile, etc.) afin de s’assurer de leurs bonnes dimensions, ou de les reconstruire précisément en 3D pour rechercher des défauts de fabrication courants.

[0085] En matière de divertissement, l’invention permet par exemple de développer une application pour téléphone mobile comportant un seul capteur d’image (ce qui est le cas de la majorité des téléphones mobiles actuels de milieu de gamme). L’application peut permettre de générer, à partir d’images ou de vidéos 2D monoculaires de scènes statiques, des reconstructions 3D métriques de haute précision. Pour cela, l’invention propose une phase de conception avec deux capteurs identiques à ceux présents dans le type de téléphone mobile en question, ces deux capteurs étant calibrés de manière intrinsèque et extrinsèque. Ces deux capteurs sont utilisés pour reconstruire un grand nombre de scènes 3D statiques par stéréoscopie. Les reconstructions 3D servent alors pour l’apprentissage du réseau CNN. Le réseau CNN est alors transféré dans l’appareil mobile, voire dans un serveur de calcul distant. Par la suite, l’application dans l’appareil mobile (monoculaire) envoie toute image 2D acquise vers ce réseau CNN, qui produit alors une reconstruction 3D métrique.

[0086] Dans le présent exposé, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Les différentes caractéristiques présentées peuvent être avantageusement combinées. Leur présence dans des parties différentes de la présente demande de brevet, n’excluent pas cette possibilité. Les signes de référence aux dessins ne sauraient être compris comme limitant la portée de l’invention.

Claims

Revendications

[Revendication 1] Procédé de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle à l’aide d’un dispositif d’acquisition d’image monoculaire (11 ), comprenant :

- une phase (210) d’entraînement d’une architecture d’apprentissage profond (60) comprenant :

- - la génération (211) de données d’apprentissage (50) adaptées pour l’apprentissage de l’architecture d’apprentissage profond, lesdites données d’apprentissage comprenant des couples de données associées, lesdites données associées comprenant pour chaque couple de données, d’une part, une carte de profondeur générée à partir d’une reconstruction 3D d’une scène tridimensionnelle appartenant à une classe sémantique donnée, obtenue par stéréoscopie multi-vues sur la base d’au moins deux images 2D de ladite scène tridimensionnelle capturées sous des angles de vue respectifs par un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, ainsi que, d’autre part, l’une desdites images 2D de la scène tridimensionnelle; et,

- - l’entraînement (212) de l’architecture d’apprentissage profond à partir des données d’apprentissage ; ainsi que

- une phase de prédiction (220) comprenant :

- - l’acquisition, par le dispositif (11) d’acquisition d’image monoculaire avec un unique capteur d’image calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, d’au moins une image 2D (25) d’une scène tridimensionnelle d’intérêt, de même nature sémantique que les scènes tridimensionnelles concernées par l’acquisition d’images pour chaque couple de données associées généré durant la phase d’entraînement ;

- - la reconstruction d’une surface 3D à l’échelle de la scène tridimensionnelle d’intérêt, sur la base d’une carte de profondeur associée (35) qui est fournie par l’architecture d’apprentissage profond en réponse à ladite image 2D acquise ; et,

[Revendication 2] Procédé selon la revendication 1 , dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.

[Revendication 3] Procédé selon la revendication 1 , dans lequel la reconstruction 3D est effectuée, dans la phase de prédiction, de manière totale en générant une carte de profondeur à partir d’une seule image 2D de la scène tridimensionnelle d’intérêt acquise par le dispositif (11) d’acquisition d’image monoculaire en mode photo.

[Revendication 4] Procédé selon la revendication 1 , dans lequel, dans la phase de prédiction, la reconstruction 3D est effectuée de manière incrémentale par génération d’une série de reconstructions 3D partielles à partir d’une série d’images 2D respectives de la scène tridimensionnelle d’intérêt acquise par le dispositif (11 ) d’acquisition d’image monoculaire en mode vidéo, et compilation itérative de ladite série de reconstructions 3D partielles en une reconstruction 3D générale.

[Revendication 5] Procédé selon la revendication 4, dans lequel la compilation de la série de cartes de profondeur partielles en une carte de profondeur générale comprend, à chaque itération sauf la première itération, un recalage des reconstructions 3D partielles afin de minimiser itérativement la distance entre les nuages de points respectifs de la reconstruction 3D générale et de chaque reconstruction 3D partielle courante.

[Revendication 6] Procédé selon l’une quelconque des revendications 1 à 5, dans lequel, dans la phase d’entraînement, la génération (211) de données d’apprentissage comprend l’acquisition de n-uplets d’image 2D de chaque scène tridimensionnelle, où n est un nombre entier strictement supérieur à l’unité, par un dispositif d’acquisition d’image binoculaire (12) ayant un unique capteur d’image calibré intrinsèquement et des moyens optiques calibrés avec le capteur d’image permettant l’acquisition par ledit dispositif d’acquisition d’image binoculaire (12), successivement, d’au moins deux images de la même scène tridimensionnelle sous des angles de vue différents.

[Revendication 7] Dispositif (40) de production d’une reconstruction 3D à l’échelle d’une scène tridimensionnelle d’intérêt pour la mise en oeuvre de la phase de prédiction d’un procédé selon l’une quelconque des revendications 1 à 6, comprenant :

- un dispositif d’acquisition d’image monoculaire (11 ), comprenant un unique capteur d’image 2D calibré intrinsèquement et ayant les mêmes caractéristiques intrinsèques que le ou les capteurs d’image utilisés dans la phase d’entraînement, pour l’acquisition d’une ou plusieurs images 2D de la scène tridimensionnelle d’intérêt en mode photo ou en mode vidéo, respectivement ;

- un système de stockage d’informations (42) adapté pour stocker l’architecture d’apprentissage profond (60), une fois entraînée avec les données d’apprentissage (50) dans la phase d’apprentissage ; et,

- une unité de calcul (41 ) configurée pour exécuter toutes les étapes de la phase de prédiction appliquées à l’image 2D ou aux images 2D acquises par le dispositif d’acquisition d’image monoculaire (11).

[Revendication 8] Dispositif selon la revendication 7, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.

[Revendication 9] Dispositif d’entraînement d’une architecture d’apprentissage profond (60) comprenant :

- un dispositif (12) d’acquisition d’images binoculaire ayant un ou plusieurs capteurs d’images calibrés intrinsèquement et le cas échéant extrinsèquement, pour capturer au moins deux images 2D sous des angles de vue respectifs, d’une scène tridimensionnelle appartenant à une classe sémantique donnée ;

- une unité de calcul (41 ) configurée pour exécuter toutes les étapes de la phase d’apprentissage appliquées aux images 2D acquises par le dispositif d’acquisition d’image binoculaire (12) ; et,

- un système de stockage d’informations adapté pour stocker l’architecture d’apprentissage profond (60) en cours d’entraînement avec les données d’apprentissage (50) durant la phase d’apprentissage.

[Revendication 10] Dispositif selon la revendication 9, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.

[Revendication 11] Programme informatique comprenant des instructions qui, lorsque le programme informatique est chargé dans la mémoire d’un ordinateur et est exécuté par un processeur dudit ordinateur, causent la mise en oeuvre par l’ordinateur de toutes les étapes de la phase de prédiction du procédé selon l’une quelconque des revendications 1 à 6 par un dispositif selon l’une quelconque des revendications 7 et 8.

[Revendication 12] Support d'enregistrement tangible, lisible par un ordinateur, sur lequel est enregistré de manière non-transitoire l’architecture d’apprentissage profond (60) générée par la mise en oeuvre de toutes les étapes de la phase d’apprentissage du procédé selon l’une quelconque des revendications 1 à 6 par un dispositif selon l’une quelconque des revendications 9 et 10.

[Revendication 13] Support d'enregistrement selon la revendication 12, dans lequel l’architecture d’apprentissage profond (60) est un réseau neuronal convolutif.