WO2023161568A1

WO2023161568A1 - Procédé de calcul de surfaces tridimensionnelles pour véhicule équipé d'un système d'aide à la conduite

Info

Publication number: WO2023161568A1
Application number: PCT/FR2023/050037
Authority: WO
Inventors: Taoufik ELKABIR; Doha HADOUNI; Rabia MOUKTADIBILLAH
Original assignee: Psa Automobiles Sa
Priority date: 2022-02-25
Filing date: 2023-01-11
Publication date: 2023-08-31
Also published as: FR3133095B1; FR3133095A1

Abstract

Procédé de calcul de surfaces tridimensionnelles pour véhicule équipé d'un système d'aide à la conduite, ce procédé comprenant - au moins une opération (110) d'acquisition d'une image initiale, cette image initiale correspondant à une scène dans laquelle figure au moins une surface, - une opération (220) d'inversion du modèle de la distribution du coefficient de réflexion bidirectionnel, - une opération (230) d'extraction des gradients d'une surface représentative de ladite surface à partir des données de géométrie de celle-ci, - une opération (240) consistant à réaliser un calcul de carte de profondeur de ladite surface par intégration des gradients de la surface représentative de ladite surface. Véhicule équipé d'un système d'aide à la conduite, d'un système d'acquisition d'images et de moyens de contrôle configurés pour mettre en œuvre au moins certaines opérations de ce procédé.

Description

DESCRIPTION

TITRE : Procédé de calcul de surfaces tridimensionnelles pour véhicule équipé d’un système d’aide à la conduite

La présente invention revendique la priorité de la demande française 2201661 déposée le 25.02.2022 dont le contenu (texte, dessins et revendications) est ici incorporé par référence Domaine technique

L'invention se rapporte au domaine des véhicules connectés, des véhicules équipés de systèmes d'aide à la conduite, des véhicules intelligents aussi dits autonomes, etc.

Les systèmes d'aide à la conduite, souvent dénommés sous l'acronyme anglais ADAS (pour « Advanced driver-assistance systems »), permettent notamment au conducteur d’optimiser sa perception de l’environnement et/ou de détecter certains risques, etc. Parmi ces systèmes, certains systèmes sont destinés à améliorer la sécurité (aide au freinage, aide au maintien sur la voie, système anticollision, limiteur/régulateur de vitesse, etc.).

Certaines des fonctionnalités des systèmes d'aide à la conduite et/ou des services connectés nécessitent une définition optimale de l’environnement extérieur du véhicule. Notamment, il est particulièrement important de pouvoir définir cet environnement dans ses trois dimensions.

État de l’art

A ce jour, la reconstruction en trois dimensions (ci-dessous « reconstruction 3D ») de l’environnement d’un véhicule, c’est-à-dire le calcul d’une surface comprenant également une dimension de profondeur (c’est-à-dire selon une direction horizontale correspondant à l’axe de visée d’une caméra) se fait à l’aide d’au moins une caméra permettant l’acquisition d’images en deux dimensions combinées à des cartes de profondeur construites à l’aide de données fournies par un ou des scanners lasers (par exemple de type LIDAR).

Mais les méthodes de reconstruction 3D connues présentent des inconvénients. Par exemple :

Il faut combiner plusieurs sources d’informations pour obtenir une reconstruction 3D ;

Les temps d’acquisition de la profondeur par un ou des scanners lasers est long ;

Le temps de calcul de la reconstruction 3D est également long du fait que ce calcul nécessite la fusion des données fournies par une ou des caméras et un ou des scanners lasers ;

La reconstruction 3D n’est pas dynamique ; Des conditions climatiques défavorables peuvent limiter la possibilité d’utiliser les informations fournies par un ou des scanners lasers ;

La précision de la reconstruction 3D dépend des paramètres intrinsèques du ou des scanners lasers et de la ou des caméras ; par exemple, la précision des données fournies par des scanners lasers est dépendante des réglages du pas d’acquisition, de la résolution selon l’axe de la profondeur, etc. ; de même, le temps d’acquisition augmente à mesure que le pas d’acquisition diminue ;

Les systèmes d’acquisition des informations nécessaires à la reconstruction 3D sont coûteux puisque multiples (caméra(s) et scanner(s) laser(s)) :

Dans le cas où des réseaux de neurones de reconnaissance visuelle sur les images fournies par les caméras embarquées sont utilisés, ceux-ci sont peu efficaces pour estimer la profondeur, car ils ont essentiellement été conçus pour détecter finement les éléments d’une scène.

Certains de ces inconvénients peuvent mener à des erreurs de détection et/ou de prise de décision, et mettent ainsi des limites à la sécurité des véhicules équipés de systèmes d'aide à la conduite.

Il existe donc un besoin pour améliorer les procédés et dispositifs de reconstruction 3D notamment pour des applications dans le domaine de l’aide à la conduite.

Exposé de l’invention

L’invention vise à fournir une réponse au moins partielle au besoin précité.

A cet effet, l’invention a pour objet un procédé de calcul d’une troisième dimension dans une scène par le traitement d’images numériques bidimensionnelles de ladite scène, ces images étant acquises par au moins une caméra de véhicule.

Ce procédé comprend alors au moins une opération d’acquisition d’au moins une image initiale comprenant au moins une surface comprise dans ladite scène à l’aide d’au moins une caméra embarquée dans un véhicule, cette image initiale étant convertie et stockée à l’aide de moyen de calcul et de stockage numériques en données numériques comprenant des données de colorimétrie et des données de géométrie de ladite surface, représentées par une unique valeur numérique, pour au moins certains des pixels correspondant à ladite surface dans l’image initiale,

- une opération d’inversion du modèle de la distribution du coefficient de réflexion bidirectionnel, le résultat de cette opération convergeant pour chacun desdits pixels vers ladite unique valeur numérique et comprenant, pour chacun desdits pixels, des données de colorimétrie et des données de géométrie d’une surface représentative de ladite surface,

- une opération d’extraction des gradients de la surface représentative de ladite surface à partir des données de géométrie de celle-ci, une opération consistant à réaliser un calcul de carte de profondeur de ladite surface par intégration des gradients de la surface représentative de ladite surface. Autrement dit, le procédé selon l’invention permet de retrouver la dimension perdue lors du processus d’acquisition d’images. En effet, les données de colorimétrie et les données de géométrie de ladite surface ayant en quelque sorte été « agrégées » ou « compilées » en une unique valeur pour chaque pixel, de l’image de la scène, les données de géométrie qui auraient pu permettre de retrouver la profondeur ont été perdues.

Mais grâce au procédé, une carte de profondeur peut être reconstruite qui permet d’accéder à la dimension perdue. Ce procédé est basé sur un modèle qui permet une reconstruction 3D seulement à partir d’images numériques. Ainsi, il n’est pas nécessaire d’utiliser des scanners lasers ou autres matériels coûteux en eux-mêmes, mais également coûteux en temps de calcul. En outre, le procédé selon l’invention peut être mis en œuvre dans le cadre de services connectés nécessitant des réponses en temps réel, car les calculs effectués lors de l’exécution de ce procédé sont rapides et peu coûteux en mémoire.

En outre, la reconstruction 3D peut être effectuée à partir d’images acquisses par une ou des caméras déjà embarquées dans le véhicule. Ainsi, il n’est pas nécessaire de rajouter un nouveau matériel d’acquisition dans le véhicule. Les véhicules modernes comprennent en effet déjà une ou plusieurs caméras embarquées.

Définitions

- Par « véhicule », on entend tout type de véhicule, en particulier un véhicule automobile, comportant un habitacle adapté pour recevoir au moins un occupant transporté par le véhicule.

- Selon leur nature, des opérations ou étapes du procédé selon l’invention peuvent être successives pour certaines et concomitantes pour d’autres.

- Dans ce texte, l’expression « système d’assistance à la conduite » désigne un ou plusieurs dispositifs destinés à être activés séparément ou en même temps, de manière temporaire (ex : assistance au freinage d’urgence) ou permanente (ex : contrôle de la distance avec d’autres véhicules). Autrement dit, dans ce texte, on regroupe de manière générique dans « un système d’assistance à la conduite » un ou plusieurs systèmes qui peuvent éventuellement être considérés par ailleurs chacun individuellement comme un système d’aide à la conduite.

Dans ce texte, une image dite « de base » est une image telle qu’elle a été acquise par le système d’acquisition d’image (ex : une caméra et les moyens de traitement et stockage associés).

Dans ce texte, une image dite « initiale » peut être composée d’une ou plusieurs images de base et/ou d’une ou plusieurs images dupliquées à partir d’une image de base. L’image initiale est une image dont les données correspondantes sont utilisées pour calculer la profondeur de la scène ou d’une surface de la scène représentée par l’image de base.

Dans ce texte, une « surface » désigne plus généralement une ou plusieurs surfaces présentes dans une scène représentée sur une image de base, une image initiale, une image dupliquée, etc.

Le procédé selon l’invention comporte également éventuellement l’une et/ou l’autre des caractéristiques suivantes considérées chacune indépendamment l’une de l’autre ou en combinaison d’une ou plusieurs autres : il comprend une opération de reconstruction 3D réalisée en combinant des données de la carte de profondeur et des données de l’image initiale ; l’image initiale est obtenue, au cours d’une opération dite de variation de l’éclairage, à partir d’une image de base et d’au moins deux autres images dupliquées correspondant chacune respectivement à ladite image de base recalculée pour qu’elle corresponde à un angle d’éclairage différent de celui de l’image de base, ainsi que de celui de la ou des autres images dupliquées ; il comprend une opération de corrélation de l’image de base avec un masque à position d’ombres variées pour obtenir les images dupliquées ;

- plusieurs images acquises par une ou plusieurs caméras sont calibrées et recalées à l’aide d’un calculateur pour obtenir une ou plusieurs images initiales ; l’opération consistant à réaliser un calcul de carte de profondeur de ladite surface par intégration des gradients de ladite surface est mise en œuvre par un calculateur programmé pour suivre un algorithme de Frankot-Chellappa.

L’invention a également pour objet un véhicule équipé, pour la mise en œuvre du procédé mentionné ci-dessus, d’un système d’aide à la conduite, d’un système d’acquisition d’images et de moyens de contrôle configurés pour mettre en œuvre au moins certaines opérations du procédé selon l’invention. Ce véhicule comprend éventuellement des moyens de connexion à des ressources de stockage et de traitement de données dans un nuage informatique. Ces ressources sont alors configurées pour mettre en œuvre au moins certaines opérations du procédé selon l’invention. Ainsi, certaines des opérations du procédé selon l’invention peuvent être mises en œuvre à l’aide de moyens de calcul et/ou de contrôle embarqués, tandis que d’autres peuvent être mises en œuvre à l’aide de ressources de stockage et de traitement de données dans un nuage informatique.

L’invention a également pour objet un système informatique distribué comprenant au moins un véhicule selon l’invention et des ressources de stockage et de traitement de données dans un nuage informatique. Dans ce cas, les ressources de stockage et de traitement de données sont configurées pour entrainer des algorithmes d’apprentissage profond avec des données résultant d’une reconstruction 3D obtenue à partir du procédé selon l’invention.

L’invention a également pour objet un programme d’ordinateur comprenant des instructions de code de programme pour l’exécution du procédé selon l’invention, lorsque ledit programme est exécuté sur un ordinateur (un ordinateur ou des moyens de calcul embarqués et/ou dans un nuage informatique), et pour déclencher une action dudit véhicule en fonction d’un paramètre prenant en compte des données de ladite carte de profondeur. A titre d’illustration, si la carte de profondeur révèle la proximité d’une surface, le programme peut engendrer des instructions déclenchant un ralentissement, un freinage ou encore un signal d’avertissement à destination du conducteur.

Brève description des dessins

D’autres caractéristiques et avantages apparaîtront dans l’exposé détaillé de différents modes de réalisation de l’invention, l’exposé étant assorti d’exemples et de références aux dessins joints.

Figure 1 est une vue schématique d’un exemple de mode de réalisation d’un véhicule selon l’invention ;

Figure 2 illustre schématiquement le principe d’un exemple de mode de mise en œuvre du procédé selon l’invention destiné à la reconstruction 3D de surfaces à partir d'images numérique ;

Figure 3 représente schématiquement différentes opérations d’un exemple de mise en œuvre d’un procédé selon l’invention ; Figure 4 représente schématiquement une image de base et des images dupliquées de l’image de base, chaque image dupliquée correspondant à un éclairage différent de la scène représentée par l’image de base ; et

Figure 5 représente schématiquement un exemple du résultat de la reconstruction 3D obtenue par la mise en œuvre du procédé selon l’invention.

Exposé détaillé des modes de réalisation

Selon un exemple de mode de réalisation d’un véhicule 1 conforme à l’invention, représenté sur la figure 1, celui-ci est équipé d’un système d’aide à la conduite 2 comprenant notamment des moyens d’enregistrement et de stockage de données et au moins un calculateur (ou autres moyens de calcul, par exemple un ordinateur). Il peut aussi comprendre d’autres dispositifs tels que par exemple des moyens de transmission de données.

Le véhicule est équipé d’un système d’acquisition d’images 3 comprenant au moins une caméra. Le système d’acquisition d’images 3 peut comprendre une ou des caméras à vision de jour et une ou des caméras à vision de nuit.

Le système d’acquisition d’images 3 est connecté au système d’aide à la conduite 2. D’autres capteurs 4 (par exemple : capteurs à ultrasons, radars, lidars, etc.) et actionneurs 5 du véhicule 1 (par exemple : système de freinage, accélérateur, système de direction, etc.) peuvent également être connectés au système d’aide à la conduite 2.

Le système d’aide à la conduite 2 est configuré pour gérer une ou plusieurs opérations ou fonctions (par exemple adaptation de la vitesse du véhicule 1 à la circulation). L’une de ces opérations peut mener à une ou plusieurs actions réalisées par le véhicule 1 (par exemple, une action de freinage).

Comme illustré par la figure 2, selon l’invention des images numériques acquises par le système d’acquisition d’images 3, sont traitées à l’aide d’une méthode de calcul qui permet de retrouver la dimension perdue lors du processus de leur acquisition. Comme le montre la figure 2, le principe de cette méthode repose sur la résolution d’un problème mathématique inverse. Plus particulièrement, selon cette méthode, une image de base est acquise à l’aide du système d’acquisition d’images 3. Cette image de base correspond à une scène dans laquelle sont présentes une ou plusieurs surfaces. Par exemple, l’image de base de cette scène est une image 2D formée de données brutes. Ces données brutes sont utilisées pour recalculer une surface qui donne la même image (ou une image semblable). Autrement dit, on cherche une image ainsi que les paramètres de colométrie et de géométrie, associés à cette image, qui correspondent à l’image de la scène acquise par le système d’acquisition d’images 3. En effet, il est connu que les données brutes fournies par la caméra contiennent deux informations : la colorimétrie et la géométrie de la surface. Mais, ces deux informations sont « compilées », « agrégées », pour chaque pixel en une unique valeur numérique. Il s’agit donc de retrouver ces deux informations de manière séparée.

Selon un exemple de mise en œuvre du procédé selon l’invention, celui-ci comprend notamment une phase 100 d’acquisition et de préparation des données qui comprend :

- une opération 110 d’acquisition d’images à l’aide du système d’acquisition d’images 3 ;

- une opération 120 de calibration et de recalage des images acquises grâce à l’opération précédente ;

- une opération 130 de duplication avec des angles variés d’au moins une image résultant des opérations précédentes 110, 120.

L’opération 120 de calibration et de recalage des images est réalisée d’une manière connue et permet notamment d’éviter les problèmes de flou. Cette opération peut éventuellement comprendre la mise en œuvre d’une opération consistant à combiner, calibrer et recaler des images de bases acquises à l’aide de plusieurs caméras positionnées différemment dans l’espace.

Des images d’une scène vue sous différents éclairages sont nécessaires pour obtenir par calcul, à partir d’une méthode dite de « forme à partir d’ombres » (soit « Shape from Shading » ou SFS en anglais), des cartes de hauteur (« heigh maps » en anglais). Généralement, cette méthode SFS utilise les données de plusieurs images d’une scène vue sous des angles différents et donc sous des éclairages différents. Mais la méthode SFS mise en œuvre de cette manière ne peut pas être utilisée dans le cas d’une scène vue par une caméra embarquée sur un véhicule en mouvement car la scène vue entre deux acquisitions successives d’images n’est plus la même. Par ailleurs, l’éclairage « ambiant » de la scène n’est pas contrôlé. Autrement dit, la mise en œuvre de la méthode SFS de la manière connue n’est pas, ou difficilement, compatible avec son utilisation en dynamique, c’est-à-dire lorsque la scène et la caméra sont en mouvement relatif l’un par rapport à l’autre.

Selon une composante de l’invention, différentes images d’une scène vue sous des éclairage différents sont obtenues à l’aide d’un calcul par corrélation d’une image de base avec un masque à position d’ombres variées. Selon ce calcul, les valeurs attachées aux pixels de l’image de base sont multipliées par les valeurs binaire (0 pour noir, 1 pour blanc) d’une autre image appelée « masque ». Suite à cette multiplication matricielle, une image dite dupliquée est obtenue avec des ombres réparties en fonctions des valeurs 0 (donc correspondant au noir) du masque. De cette façon, la position des ombres est contrôlée (valeur associée au pixel à 0). Plusieurs images dupliquées sont obtenues de manière automatique à l’aide de masque différents. Chaque image dupliquée correspond à des positions différentes des ombres. Ainsi, pour une image d’une scène résultant de l’opération 110 d’acquisition par au moins l’une des caméras du véhicule et de l’opération 120 de calibration et recalage, au moins deux autres images de la même scène vue sous des éclairages différents sont calculées à l’aide d’un masque à position d’ombres variées, au cours d’une opération 130 de variation de l’éclairage.

La figure 4 illustre un exemple d’un ensemble d’images résultant des opérations décrites précédemment et comprenant par exemple l’image de base (a) et trois images (b), (c) et (d) dupliquées à partir de l’image de base, avec des ombres différentes. Dans l’exemple, illustré il s’agit d’images de synthèse, mais le même type de résultat peut être obtenu pour tout type de scène. Ces images (a), (b), (c) et (d) sont utilisées pour former une image initiale formant une carte de gradients qui va servir à la reconstruction 3D.

Autrement dit, l’ensemble des données correspondant à au moins trois de ces images (l’image de base et au moins deux autres images dupliquées avec des ombres différentes à partir de l’image de base) permet de former une image initiale qui est alors utilisée pour la phase 200 de reconstruction 3D proprement dite.

Dans le cas où les données ainsi acquises sont en format RAW (brut), il est nécessaire de passer par une opération 210 de pré-traitement qui consiste à réaliser un « dématriçage ». Cette opération 210 de pré-traitement permet d’interpoler les données de chacun des photosites rouge, vert et bleu composant le capteur électronique pour obtenir une valeur trichrome par pixel (Couleur RGB).

Selon une autre composante de l’invention, les images préparées lors de la phase 100 d’acquisition (éventuellement complétée de l’opération de pré-traitement 210) sont traitées, au cours d’une opération 220, à l’aide d’un calcul reposant en particulier sur l’inversion du modèle de la distribution du coefficient de réflexion bidirectionnel (« Bidirectional Reflectance Distribution Function » ou BRDF en anglais) construit à partir des données correspondant aux images résultant des opérations précédentes (Pour plus de détails sur ce type de calcul d’inversion du modèle de la distribution du coefficient de réflexion bidirectionnel, on peut se référer à « Photometric method for determining surface orientation from multiple images », R. J. Wooddham, Optical Engineering, Jan/Feb 1980, Vol. 19, N°l, p 139-144). Une opération 230 de séparation des données de colorimétrie (relatives à la réflectance ou albèdo p) et des données de géométrie (champs de gradients p et q) est ensuite réalisée.

En effet, il est bien connu que la géométrie de la surface est contenue dans les valeurs des gradients p et q de la surface, qui sont étroitement liées à la normale à la surface qui définit les orientations de chaque point de la surface (c’est-à-dire, dans le cas présent, pour chaque pixel des images acquises).

Les gradients de surface p et q sont les dérivées partielles premières de la hauteur z (ou profondeur dans le cas d’une prise de vue selon un axe horizontal), suivant les deux autres directions x et y (Voir par exemple, « Calculating the reflectance map”,

Berthold K. P. Hom et Robert W. Sjoberg, Applied Optics, Vol. 18, No. 11, 1 June 1979). Il est alors possible de réaliser une reconstruction 3D pour chaque point (x,y) de la surface considérée. Par exemple, une telle reconstruction 3D peut être obtenue par une opération 240 d’intégration numérique des champs de gradients par la méthode de « Frankot Chellappa » (voir par exemple « A New Algorithm for Gradient Field Integration », Tiangong Wei and Reinhard Klette, proceedings of Dunedin Conference IVCNZ’01, 2001).

La figure 5 illustre, de manière schématique le résultat obtenu lorsqu’une méthode de reconstruction 3D de ce type est appliquée aux images représentées sur la figure 4. On notera que le fait d’obtenir de cette manière des surfaces en 3D ouvre la voie à l’utilisation et l’entrainement d’algorithmes d’apprentissage profond avec des bases de données contenant de telles images 3D.

Claims

REVENDICATIONS

1. Procédé de calcul d’une troisième dimension dans une scène par le traitement d’images numériques bidimensionnelles de ladite scène, ces images étant acquises par au moins une caméra de véhicule, ce procédé comprenant au moins une opération (110) d’acquisition d’au moins une image initiale comprenant au moins une surface comprise dans ladite scène à l’aide d’au moins une caméra embarquée dans un véhicule, cette image initiale étant convertie et stockée à l’aide de moyen de calcul et de stockage numériques, en données numériques comprenant des données de colorimétrie et des données de géométrie de ladite surface, représentées par une unique valeur numérique, pour au moins certains des pixels correspondant à ladite surface dans l’image initiale,

- une opération (220) d’inversion du modèle de la distribution du coefficient de réflexion bidirectionnel, le résultat de cette opération (220) convergeant pour chacun desdits pixels vers ladite unique valeur numérique et comprenant, pour chacun desdits pixels, des données de colorimétrie et des données de géométrie d’une surface représentative de ladite surface,

- une opération (230) d’extraction des gradients de la surface représentative de ladite surface à partir des données de géométrie de celle-ci,

- une opération (240) consistant à réaliser un calcul de carte de profondeur de ladite surface par intégration des gradients de la surface représentative de ladite surface.

2. Procédé selon la revendication 1, comprenant une opération de reconstruction 3D réalisée en combinant des données de la carte de profondeur et des données de l’image initiale.

3. Procédé selon la revendication 1 ou 2, dans lequel l’image initiale est obtenue, au cours d’une opération (130) dite de variation de l’éclairage, à partir d’une image de base et d’au moins deux autres images dupliquées correspondant chacune respectivement à ladite image de base recalculée pour qu’elle corresponde à un angle d’éclairage différent de celui de l’image de base, ainsi que de celui de la ou des autres images dupliquées.

4. Procédé selon la revendication 3, comprenant une opération de corrélation de l’image de base avec un masque à position d’ombres variées pour obtenir les images dupliquées. Procédé selon l’une des revendications précédentes, dans lequel plusieurs images acquises par une ou plusieurs caméras sont calibrées et recalées à l’aide d’un calculateur pour obtenir une ou plusieurs images initiales. Procédé selon l’une des revendications précédentes, dans lequel l’opération (240) consistant à réaliser un calcul de carte de profondeur de ladite surface par intégration des gradients de ladite surface est mise en œuvre par un calculateur programmé pour suivre un algorithme de Frankot-Chellappa. Véhicule (1) équipé d’un système d’aide à la conduite (2), d’un système d’acquisition d’images (3) et de moyens de contrôle configurés pour mettre en œuvre au moins deux des opérations du procédé selon l’une des revendications précédentes. Véhicule selon la revendication 7, comprenant des moyens de connexion à des ressources de stockage et de traitement de données dans un nuage informatique (6), ces ressources étant configurées pour mettre en œuvre au moins deux des opérations du procédé selon l’une des revendications 1 à 6. Système informatique distribué comprenant au moins un véhicule (1) selon la revendication 8 et des ressources de stockage et de traitement de données dans un nuage informatique (6), dans lequel les ressources de stockage et de traitement de données sont configurées pour entrainer des algorithmes d’apprentissage profond avec des données résultant d’une reconstruction 3D obtenue à partir du procédé selon l’une des revendications 1 à 6. Programme d’ordinateur comprenant des instructions de code de programme pour l’exécution du procédé selon l’une des revendications 1 à 6, lorsque ledit programme est exécuté sur un ordinateur, et pour déclencher une action dudit véhicule en fonction d’un paramètre prenant en compte des données de ladite carte de profondeur.