EP4248367A1 - Learning device for mobile cyber-physical system - Google Patents

Learning device for mobile cyber-physical system

Info

Publication number
EP4248367A1
EP4248367A1 EP21815481.3A EP21815481A EP4248367A1 EP 4248367 A1 EP4248367 A1 EP 4248367A1 EP 21815481 A EP21815481 A EP 21815481A EP 4248367 A1 EP4248367 A1 EP 4248367A1
Authority
EP
European Patent Office
Prior art keywords
learning
learning unit
environment
sensor
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21815481.3A
Other languages
German (de)
French (fr)
Inventor
Gregorio Ameyugo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA, Commissariat a lEnergie Atomique et aux Energies Alternatives CEA filed Critical Commissariat a lEnergie Atomique CEA
Publication of EP4248367A1 publication Critical patent/EP4248367A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Definitions

  • the invention relates to the field of learning distributed systems, in particular mobile cyber-physical systems comprising a learning artificial intelligence able to control the movement and evolution of such systems in their environment or more generally the interaction of these systems. with their environment.
  • the invention applies in particular to the field of autonomous vehicles, but also to the field of robotics or drones.
  • a general problem in the field of autonomous systems relates to the automatic piloting of such systems moving and interacting with their environment.
  • autonomous systems use machine learning algorithms to learn to recognize obstacles in their environment and determine the most optimal trajectories.
  • the learning phase is generally carried out under test conditions with dedicated test systems in a controlled environment.
  • learning is carried out on test vehicles in a secure environment.
  • the learning software is then downloaded to each vehicle in operational condition for use.
  • a disadvantage of this method is that it does not take into account the specificities of each vehicle and the differences with respect to the test vehicle.
  • the physical characteristics of a vehicle can change over time, for example because a tire deflates or certain sensors or motors deteriorate.
  • a learning algorithm optimized for certain test conditions is therefore not necessarily adapted to a real operational situation, which can lead to trajectory errors in real conditions.
  • Another solution consists in updating the learning carried out under test conditions from local characteristics of the vehicle on which the autopilot software is installed. This is called local overfitting.
  • the present invention aims to provide a learning cyber-physical system that combines conventional offline learning with simulated learning from data acquired directly by the system.
  • the system control algorithm can be updated regularly on the basis of new situations with which the system (or similar systems cooperating together) is confronted and/or by taking into account the evolution of the physical characteristics of the system.
  • the subject of the invention is a learning device intended to be embedded in a mobile cyber-physical system fitted with actuators, the device comprising at least one sensor for perceiving the external environment of the system, at least one internal sensor able to provide information on the state of the system, a first learning unit configured to restore a perception of the environment from the data acquired by the at least one perception sensor, a second learning unit configured to control the actuators, a generator of simulation scenarios of the system in its environment controlled by the first learning unit and the second learning unit, a scenario simulator and a virtualization platform for simulating the behavior of a digital twin of the system in the scenarios simulated by the generator and adapting the parameters of the second learning unit in order to control the system so that it adapts to its environment, the second learning unit implementing an automatic learning algorithm for controlling the actuators from the at least one perception sensor, from the at least one internal sensor, the automatic learning algorithm being trained by means of the scenarios of simulations simulated in the virtualization platform, the device comprising a member for triggering the simulation scenario generator according to a
  • the cyber-physical system is an autonomous vehicle, a robot or a drone.
  • the at least one perception sensor is taken from among a camera, a Lidar, a laser, an acoustic sensor.
  • the at least one internal sensor is taken from among a temperature sensor, a pressure sensor, a speed sensor.
  • the first learning unit implements an automatic learning algorithm configured to generate data characteristic of the environment from the at least one perception sensor.
  • the device comprises a data storage unit for saving the data generated by the first learning unit over a predetermined period.
  • the simulation scenario generator and/or the simulator and/or the virtualization platform are capable of being deported to a centralized server.
  • the virtualization platform is able to receive simulation scenarios generated by remote cyber-physical systems belonging to a fleet of systems.
  • the device further comprises a unit for converting a simulation scenario into a textual semantic description intended to be transmitted to other systems belonging to the same fleet and a generating unit of a simulation scenario from a textual semantic description received.
  • the invention also relates to a mobile cyber-physical system provided with actuators comprising a learning device according to the invention configured to control the actuators to control said system in its environment.
  • FIG. 1 represents a diagram of a first variant embodiment of a cyber-physical system according to the invention
  • FIG. 2 represents a second alternative embodiment of the system of FIG. 1,
  • FIG. 3 represents a third alternative embodiment of the system of FIG. 1,
  • FIG. 4 represents a fourth alternative embodiment of the system of FIG. 1,
  • FIG. 5 represents an example of distributed implementation of the system according to the invention.
  • Figure 1 illustrates, in a diagram, an example of a cyber-physical system according to the invention comprising a learning device.
  • the system 101 is mobile in an environment 102.
  • the system 101 is a motor vehicle moving on a road, or a robot or even a drone.
  • the system 101 moves in its environment by means of actuators 105.
  • the actuators designate all the elements of the system which allow it to move or to interact with its environment.
  • the actuators 105 notably include the wheels, the steering wheel, the gear lever.
  • the actuators 105 also comprise an articulated arm of the robot making it possible to grasp an object.
  • the actuators 105 are driven by a command (for example an electrical signal) to interact with the environment 102.
  • a command for example an electrical signal
  • the system 101 is provided with a learning device which comprises the following elements.
  • One or more external sensors 103 are placed on the system 101 to acquire data or environmental perception measurements 102.
  • the external sensors or perception sensors 103 include, for example, a camera, a Lidar device, a laser, an acoustic sensor or any other sensor making it possible to measure information on the environment 102.
  • the external sensor(s) 103 are connected to a first learning unit
  • the learning unit 104 has the function of detecting and characterizing objects in the acquired images, in particular obstacles such as pedestrians or buildings or even to detect the limits of a road.
  • the learning unit 104 implements an automatic learning algorithm, for example an algorithm based on an artificial neural network.
  • a second learning unit 106 is used to control the actuators 105 depending, in particular, on the data provided by the first learning unit 104 to characterize the environment.
  • the second learning unit 106 implements another automatic learning algorithm which has the function of controlling the actuators
  • the system 101 is a vehicle
  • one objective of the second learning unit 106 is to control the movement of the vehicle in its environment while avoiding collisions with obstacles and respecting the rules of the road.
  • the system 101 is a robot
  • one objective of the second learning unit 106 is to control the movement of the robot and to control its articulated arm to carry out a predetermined mission.
  • the learning algorithm(s) implemented by the second learning unit 106 are, beforehand, trained to achieve the targeted objective on learning data in a learning environment. test.
  • the training is carried out in particular by means of scenarios 110 for simulating the environment 102 which make it possible to train the unit 106 to achieve the target objective for a set of predetermined scenarios.
  • An objective of the invention is in particular to improve the learning carried out by the unit 106 to take into account more finely the evolution of the environment 102 but also the evolution of the characteristics of the system 101 over time. .
  • the system 101 is also equipped with internal sensors 112 whose role is to measure characteristics relating to the state of the system 101, in particular the state of the actuators 105.
  • the internal sensors 112 comprise temperature sensors, pressure sensors, in particular tire pressure of a vehicle, speed sensors.
  • the measurements provided by the internal sensors 112 are also taken into account in the learning of the second learning unit 106 to control the actuators 105.
  • the data generated by the first learning unit 104 is stored in a memory 108 over a predefined time interval.
  • the learning device with which the system 101 is equipped also comprises a generator 109 of simulation scenarios of the environment 102.
  • This generator is on the one hand powered by a definition of a set of initial scenarios 110 predetermined to carry out the learning unit 106.
  • it is fed by the environmental perception data stored in the memory 108 to generate new scenarios from the information acquired by the external sensors 103.
  • the generation of scenarios also takes into account information provided by the learning unit 106.
  • the generator 109 is activated following a trigger event.
  • This event can be triggered manually by a user of the system 101, for example by the driver of a vehicle who wishes to update the learning of the unit 106 following a particular event, for example a collision of the system with an obstacle.
  • the triggering of the generator 109 can also be carried out automatically by means of an automatic learning algorithm configured to detect a particular event, for example a collision or non-compliance with the highway code or even non-compliance with a mission entrusted to a robot, or even unacceptable performance of the robot for the task performed, for example, excessive execution time.
  • the detection of this event can be performed by the first learning unit 104.
  • the generator 109 Following the triggering event, the generator 109 generates a new scenario of the environment 102 from the data stored in the memory 108 and corresponding to a predefined time interval before the triggering event.
  • This new scenario is supplied as input to a simulator 107 capable of simulating the system 101 in its simulated environment corresponding to the generated scenario.
  • a virtualization platform 111 is then used to simulate the overall behavior of the system 101 including the configuration of the learning unit 106.
  • the virtualization platform 111 is able to model a digital twin of the system 101 from a initial model of the system and of the measurements provided by the internal sensors 112.
  • the digital twin makes it possible to faithfully reproduce the system 101 and its evolutions over time and to take these evolutions into account in the learning of the piloting of the system by the learning unit 106.
  • the virtualization platform 111 uses the data recorded in the memory 108 over a predefined time interval before the triggering event, including the data fed back from the internal sensors, to virtually reproduce the scenario that led to the event .
  • the learning algorithm implemented by the learning unit 106 re-parameterizes the actuators of the system 101 so as to virtually produce an acceptable scenario in the same simulated environment.
  • the virtualization platform 111 simulates the behavior of the digital twin of the system in the scenario simulated by the simulator 107.
  • a new learning of the algorithm The automatic learning process executed by the learning unit 106 is carried out with the aim of controlling the system in order to avoid the incident which triggered the new scenario. For example, if the triggering event corresponds to a collision of the vehicle with an obstacle which has not been detected, the learning algorithm uses the data from the sensors corresponding to a time interval preceding and integrating this collision as learning data in order to modify the parameterization of the trajectory of the vehicle in order to learn how to avoid this type of obstacle.
  • the learning algorithm uses these new learning data in order to modify the parameter setting of the trajectory of the vehicle to avoid such a line crossing.
  • the data saved in memory 108 and corresponding to a triggering event is used as new learning data to update the automatic learning algorithm so that this type of event no longer occurs. in the future or in other words that the system 101 be configured to avoid the occurrence of such an event.
  • This new learning is carried out for the new simulated scenario but also for all the initial scenarios 110 in order to always verify that the control of the system is compatible with all the scenarios provided.
  • the new configuration of the actuators for example the control of the transmission in the case where the system is a vehicle for which the triggering event is a bad trajectory due to an under-inflated tire, is simulated for all the scenarios 110 to verify that the new learning does not generate other undesirable events.
  • the modification of the configuration of an actuator can, potentially, generate other undesired events in the context of the scenarios previously tested, it is therefore important to execute all the scenarios for each new data set of learning available following a triggering event.
  • the learning algorithm implemented by the learning unit 106 is executed in the virtualization platform 111 with the simulation parameters to carry out a new learning of this algorithm.
  • the new parameters of the algorithm determined by the virtualization platform 111 are transmitted to the learning unit 106 which will update its learning algorithm to modify the control of the system in actual conditions.
  • the new learning phase carried out by the virtualization platform 111 is, for example, carried out during a period of inactivity of the system 101 . It is also possible to carry out the learning phase on the virtualization platform in parallel with the operation of the system, and transfer the improved parameters to the system once it is stopped or in a safe condition.
  • the system 101 can improve its reaction in order to avoid a new incident.
  • a triggering event for the generation of a new scenario is, for example, crossing a line, not respecting a traffic light or a collision with an obstacle or more generally a traffic accident.
  • the generator 109 produces a simulation scenario corresponding to this accident from the data recorded in memory 108.
  • the virtualization platform 111 will then carry out a new learning of the control algorithm from this scenario with the aim of modifying the steering of the vehicle to avoid an accident.
  • the new parameters of the artificial intelligence algorithm executed by the learning unit 106 are then updated so that the vehicle improves its reaction if the scenario which led to the accident is reproduced.
  • the updated parameters remain compatible with other previously validated scenarios.
  • the virtualization platform 111 takes into account, via the simulation of the digital twin of the vehicle, the internal characteristics of the car, for example the level of tire pressure or else their state of use which can be estimated through a correlation between the time elapsed since they were changed, and their level of use.
  • the learning aims for example to improve the handling of an articulated arm of the robot in order to improve its grip in order to grasp certain types of objects or perform certain tasks which require precision.
  • An advantage provided by the invention is that it makes it possible to improve the learning of the learning unit in charge of controlling the system according to events which occur in operational conditions.
  • the invention makes it possible to react to specific events which were not foreseen in the initial learning scenarios used to develop the learning algorithm.
  • the invention takes into account, via a digital twin of the system, the evolution over time of the state of the system.
  • the learning unit 106 in charge of controlling the system 101 executes one or more automatic learning algorithms which receive as input all the data acquired by the external 103 and internal 112 sensors as well as the perception data of the environment produced by the first learning unit 104 and produce as output one or more command(s) intended for the actuators 105.
  • Reference [1] describes a vehicle parking aid algorithm.
  • Reference [2] describes a method for detecting events of known nature which can be used to detect a particular event and trigger the generation of a new scenario.
  • Reference [3] describes an algorithm making it possible to adapt the control of a vehicle in real time.
  • Reference [4] describes an artificial intelligence algorithm which makes it possible to adapt the control of a vehicle in a modeled terrain.
  • Reference [5] describes an artificial intelligence algorithm to adapt the generation of mobile robot trajectories.
  • Reference [6] describes yet another example of a learning algorithm for autonomous driving.
  • the first learning unit 104 also executes one or more automatic learning algorithm(s) which aim to characterize the environment of the system from the data acquired by the external sensors 103.
  • unit 104 The algorithms implemented by unit 104 can be chosen from state-of-the-art algorithms known to those skilled in the art. Without being exhaustive, several possible examples of such algorithms are cited.
  • Reference [7] describes an algorithm for detecting particular events in a video sequence.
  • Reference [9] describes a detection method for measurements acquired by environmental sensors.
  • Reference [10] describes a method for detecting pedestrians in a video sequence.
  • Reference [11] describes another method for detecting objects in images.
  • Reference [13] describes a method for characterizing a 3D scene.
  • Reference [14] describes a method for recognizing objects in a scene observed in 3D.
  • reference [8] describes a method for generating a simulated environment which can be implemented by the generator 109.
  • Reference [12] describes a system for generating a simulated scenario from data supplied by sensors which can also be used to produce generator 109.
  • the processor may be a generic processor, a specific processor, an application-specific integrated circuit (also known as an ASIC for "Application-Specific Integrated Circuit") or an array of field-programmable gates (also known as the English name of FPGA for “Field-Programmable Gate Array”).
  • the learning device according to the invention can use one or more dedicated electronic circuits or a circuit for use general.
  • the technique of the invention can be implemented on a reprogrammable calculation machine (a processor or a microcontroller for example) executing a program comprising a sequence of instructions, or on a dedicated calculation machine (for example a set of gates such as an FPGA or an ASIC, or any other hardware module, in particular neuromorphic electronic modules suitable for embedded learning).
  • a reprogrammable calculation machine a processor or a microcontroller for example
  • a dedicated calculation machine for example a set of gates such as an FPGA or an ASIC, or any other hardware module, in particular neuromorphic electronic modules suitable for embedded learning.
  • Figure 1 describes a first embodiment of the invention for which all the components of the learning device are embedded in the cyber-physical system 101.
  • Figure 2 describes a second embodiment of the invention for which the simulation scenario generator 109 is remote outside the system 101, for example in a remote server.
  • Figure 3 describes a third alternative embodiment of the invention for which the simulation scenario generator 109, the simulator 107 and the virtualization platform 111 are deported to a remote server.
  • Figure 4 describes a fourth embodiment of the invention for which, in addition, the storage or memory unit 108 which makes it possible to save the perception data over a time interval is also deported to a remote server. .
  • each of the components 109,107,111, 108 can be remoted alone or in combination with another to a calculation server having increased calculation resources.
  • the system 101 includes communication equipment making it possible to exchange data with the remote server. This may, for example, be radio communication equipment based on wireless technology (e.g. 5G technology).
  • FIG. 5 describes another embodiment of the invention for which the simulation scenarios generated following an event are shared between several cooperating systems 501,502,503 together within a fleet.
  • An advantage of this variant is that it allows cooperative learning, with all the vehicles benefiting from the new scenarios generated by each vehicle following an event, and leading to an acceleration of the overall safety level of the fleet.
  • the new scenarios generated by any one of the systems are retransmitted to all the other systems 502,503 of the fleet so that they realize a new learning.
  • the simulation scenarios are transmitted to the other vehicles of the fleet in a compressed form, for example in the form of a semantic description. In this way, the bandwidth consumed by these data transfers is reduced.
  • the system 501 which generates a new scenario also generates a semantic description of this scenario.
  • a semantic description can be obtained using semantic image algorithms that create a textual description from an image.
  • the generated scenario textual description is then transmitted to other fleet systems 502,503 which can re-generate the simulation scenarios from this textual description using a generative scene-to-text algorithm.
  • Reference [15] gives an example of a semantic description generation method from images.
  • Reference [16] gives an example of a scene generation method from a semantic description (ontology).
  • This variant embodiment has a significant advantage in terms of limiting the quantity of data exchanged between the systems of the fleet to share the scenarios.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)
  • Traffic Control Systems (AREA)

Abstract

Disclosed is a learning device intended to be embedded in a mobile cyber-physical system (101) provided with actuators (105), the device comprising at least one perception sensor (103) for perceiving the environment (102) outside the system, at least one internal sensor (112) suitable for providing information on the state of the system, a first learning unit (104) configured to render a perception of the environment based on the data acquired by the at least one perception sensor (103), a second learning unit (106) configured to control the actuators (105), a generator (109) for generating simulation scenarios of the system in its environment controlled by the first learning unit (104) and the second learning unit (106), a scenario simulator (107) and a virtualisation platform (111) for simulating the behaviour of a digital twin of the system in the scenarios simulated by the generator and adapting the parameters of the second learning unit (106) in order to control the system in such a way that it adapts to its environment.

Description

DESCRIPTION DESCRIPTION
Titre de l’invention: Dispositif apprenant pour système cyber-physique mobile Title of the invention: Learning device for mobile cyber-physical system
[0001] L’invention concerne le domaine des systèmes distribués apprenants, en particulier les systèmes cyber physiques mobiles comprenant une intelligence artificielle apprenante apte à piloter le déplacement et l’évolution de tels systèmes dans leur environnement ou plus généralement l’interaction de ces systèmes avec leur environnement. [0001] The invention relates to the field of learning distributed systems, in particular mobile cyber-physical systems comprising a learning artificial intelligence able to control the movement and evolution of such systems in their environment or more generally the interaction of these systems. with their environment.
[0002] L’invention s’applique notamment au domaine des véhicules autonomes, mais aussi au domaine de la robotique ou des drones. The invention applies in particular to the field of autonomous vehicles, but also to the field of robotics or drones.
[0003] Une problématique générale dans le domaine des systèmes autonomes concerne le pilotage automatique de tels systèmes se déplaçant et interagissant avec leur environnement. [0003] A general problem in the field of autonomous systems relates to the automatic piloting of such systems moving and interacting with their environment.
[0004] Plus précisément, les systèmes autonomes utilisent des algorithmes d’apprentissage automatique pour apprendre à reconnaître les obstacles dans leur environnement et déterminer les trajectoires les plus optimales. [0004] More specifically, autonomous systems use machine learning algorithms to learn to recognize obstacles in their environment and determine the most optimal trajectories.
[0005] Ces algorithmes fonctionnent typiquement selon deux phases : une phase d’apprentissage pendant laquelle les paramètres de l’algorithme sont déterminés à partir de données d’apprentissage acquises et une phase opérationnelle lors de laquelle l’algorithme entrainé est exécuté pour piloter le système. [0005] These algorithms typically operate in two phases: a learning phase during which the parameters of the algorithm are determined from acquired learning data and an operational phase during which the trained algorithm is executed to drive the system.
[0006] Pour des raisons de sécurité, la phase d’apprentissage est généralement réalisée dans des conditions de test avec des systèmes de test dédiés dans un environnement contrôlé. [0006] For security reasons, the learning phase is generally carried out under test conditions with dedicated test systems in a controlled environment.
[0007] L’algorithme d’apprentissage mis au point pendant la phase de test est ensuite diffusé à chaque utilisateur pour être exécuté sur chaque système spécifique. [0007] The learning algorithm developed during the test phase is then distributed to each user to be executed on each specific system.
[0008] Par exemple, dans le cas de véhicules autonomes, l’apprentissage est réalisé sur des véhicules de test dans un environnement sécurisé. Le logiciel d’apprentissage est ensuite téléchargé sur chaque véhicule en condition opérationnelle pour être utilisé. [0008] For example, in the case of autonomous vehicles, learning is carried out on test vehicles in a secure environment. The learning software is then downloaded to each vehicle in operational condition for use.
[0009] Un inconvénient de cette méthode est qu’elle ne prend pas en compte les spécificités de chaque véhicule et les différences par rapport au véhicule de test. En particulier, les caractéristiques physiques d’un véhicule peuvent évoluer au cours du temps, par exemple parce qu’un pneu se dégonfle ou certains capteurs ou moteurs se dégradent. Un algorithme d’apprentissage optimisé pour certaines conditions de test n’est donc pas forcément adapté à une situation opérationnelle réelle ce qui peut entrainer des erreurs de trajectoire en conditions réelles. [0009] A disadvantage of this method is that it does not take into account the specificities of each vehicle and the differences with respect to the test vehicle. In In particular, the physical characteristics of a vehicle can change over time, for example because a tire deflates or certain sensors or motors deteriorate. A learning algorithm optimized for certain test conditions is therefore not necessarily adapted to a real operational situation, which can lead to trajectory errors in real conditions.
[0010] Il existe donc un besoin pour améliorer les systèmes apprenants basés sur des algorithmes d’apprentissage automatique afin de mieux prendre en compte les situations opérationnelles réelles en particulier l’évolution des caractéristiques du système. [0010] There is therefore a need to improve learning systems based on automatic learning algorithms in order to better take into account real operational situations, in particular the evolution of the characteristics of the system.
[0011] Une solution pour améliorer l’apprentissage automatique consiste à réaliser l’apprentissage sur des véhicules en conditions opérationnelles, cependant cela pose des problèmes sérieux de sécurité et n’est donc pas envisageable. [0011] One solution for improving automatic learning consists in carrying out the learning on vehicles in operational conditions, however this poses serious safety problems and is therefore not conceivable.
[0012] Une autre solution consiste à mettre à jour l’apprentissage réalisé en conditions de test à partir de caractéristiques locales du véhicule sur lequel est installé le logiciel de pilotage automatique. On parle alors de sur-apprentissage local. Another solution consists in updating the learning carried out under test conditions from local characteristics of the vehicle on which the autopilot software is installed. This is called local overfitting.
[0013] Cependant cette solution ne permet pas réellement d’améliorer l’apprentissage car elle ne prend pas en compte le fait que les réactions du véhicule vis-à-vis de son environnement sont dépendantes de ses caractéristiques physiques. Par exemple, si une roue du véhicule est légèrement dégonflée, la réaction du véhicule face à un obstacle peut être différente de ce qu’elle serait avec une roue parfaitement gonflée. [0013] However, this solution does not really make it possible to improve learning because it does not take into account the fact that the reactions of the vehicle with respect to its environment are dependent on its physical characteristics. For example, if a vehicle wheel is slightly deflated, the vehicle's reaction to an obstacle may be different from what it would be with a perfectly inflated wheel.
[0014] Les solutions existantes ne permettent pas de prendre en compte finement dans l’apprentissage les caractéristiques locales d’un véhicule et la relation entre ces caractéristiques et le comportement du véhicule par rapport à une situation externe donnée. [0014] The existing solutions do not allow the local characteristics of a vehicle and the relationship between these characteristics and the behavior of the vehicle with respect to a given external situation to be finely taken into account in the learning.
[0015] La présente invention vise à proposer un système cyber-physique apprenant qui combine un apprentissage hors ligne classique avec un apprentissage simulé à partir de données acquises directement par le système. Ainsi, l’algorithme de pilotage du système peut être mis à jour régulièrement à partir de nouvelles situations auxquelles le système (ou des systèmes similaires coopérant ensemble) est confronté et/ou en prenant compte de l’évolution des caractéristiques physiques du système. L’invention a pour objet un dispositif apprenant destiné à être embarqué dans un système cyber-physique mobile muni d’actionneurs, le dispositif comprenant au moins un capteur de perception de l’environnement externe du système, au moins un capteur interne apte à fournir une information sur l’état du système, une première unité apprenante configurée pour restituer une perception de l’environnement à partir des données acquises par l’au moins un capteur de perception, une seconde unité apprenante configurée pour commander les actionneurs, un générateur de scénarios de simulation du système dans son environnement commandé par la première unité apprenante et la seconde unité apprenante, un simulateur de scénarios et une plateforme de virtualisation pour simuler le comportement d’un jumeau numérique du système dans les scénarios simulés par le générateur et adapter les paramètres de la seconde unité apprenante afin de commander le système de manière à ce qu’il s’adapte à son environnement, la seconde unité apprenante implémentant un algorithme d’apprentissage automatique pour commander les actionneurs à partir de l’au moins un capteur de perception, de l’au moins un capteur interne, l’algorithme d’apprentissage automatique étant entrainé au moyen des scénarios de simulation simulés dans la plateforme de virtualisation, le dispositif comprenant un organe de déclenchement du générateur de scénarios de simulation en fonction d’un type d’évènement prédéterminé détecté par la première unité apprenante, l’évènement prédéterminé étant déclenché par un utilisateur ou par un algorithme de supervision apte à détecter un évènement, le dispositif étant caractérisé en ce que le générateur de scénarios de simulation est configuré pour générer, sur commande de l’organe de déclenchement, un scénario de simulation de l’environnement du système dans une fenêtre de temps avant le déclenchement de l’évènement, dans lequel le comportement du système cyber-physique est simulé au moyen d’un jumeau numérique du système cyber-physique à partir d’un modèle initial du système et d’informations fournies par l’au moins un capteur interne, dans le scénario de simulation généré par le générateur, et en ce que la plateforme de virtualisation est configurée pour interagir avec la seconde unité apprenante qui met à jour les paramètres de l’algorithme d’apprentissage automatique de manière à modifier le comportement du système cyber-physique dans ledit scénario de simulation généré jusqu’à ne plus reproduire ledit évènement déclencheur dans ledit scénario de simulation. [0016] Selon un aspect particulier de l’invention, la seconde unité apprenante vérifie que lesdits paramètres mis à jour sont compatibles avec un ensemble de scénarios initiaux non liés audit évènement déclencheur, auquel cas la seconde unité apprenante met à jour l’algorithme d’apprentissage automatique par un nouvel apprentissage utilisant lesdits paramètres mis à jour. The present invention aims to provide a learning cyber-physical system that combines conventional offline learning with simulated learning from data acquired directly by the system. Thus, the system control algorithm can be updated regularly on the basis of new situations with which the system (or similar systems cooperating together) is confronted and/or by taking into account the evolution of the physical characteristics of the system. The subject of the invention is a learning device intended to be embedded in a mobile cyber-physical system fitted with actuators, the device comprising at least one sensor for perceiving the external environment of the system, at least one internal sensor able to provide information on the state of the system, a first learning unit configured to restore a perception of the environment from the data acquired by the at least one perception sensor, a second learning unit configured to control the actuators, a generator of simulation scenarios of the system in its environment controlled by the first learning unit and the second learning unit, a scenario simulator and a virtualization platform for simulating the behavior of a digital twin of the system in the scenarios simulated by the generator and adapting the parameters of the second learning unit in order to control the system so that it adapts to its environment, the second learning unit implementing an automatic learning algorithm for controlling the actuators from the at least one perception sensor, from the at least one internal sensor, the automatic learning algorithm being trained by means of the scenarios of simulations simulated in the virtualization platform, the device comprising a member for triggering the simulation scenario generator according to a type of predetermined event detected by the first learning unit, the predetermined event being triggered by a user or by a supervision algorithm capable of detecting an event, the device being characterized in that the simulation scenario generator is configured to generate, on command from the triggering member, a simulation scenario of the environment of the system in a window of time before the triggering of the event, in which the behavior of the cyber-physical system is simulated by means of a j digital model of the cyber-physical system from an initial model of the system and information provided by the at least one internal sensor, in the simulation scenario generated by the generator, and in that the virtualization platform is configured to interact with the second learning unit which updates the parameters of the automatic learning algorithm so as to modify the behavior of the cyber-physical system in said generated simulation scenario until it no longer reproduces said triggering event in said scenario simulation. According to a particular aspect of the invention, the second learning unit verifies that said updated parameters are compatible with a set of initial scenarios unrelated to said triggering event, in which case the second learning unit updates the algorithm automatic learning by re-learning using said updated parameters.
[0017] Selon un aspect particulier de l’invention, le système cyber-physique est un véhicule autonome, un robot ou un drone. According to a particular aspect of the invention, the cyber-physical system is an autonomous vehicle, a robot or a drone.
[0018] Selon un aspect particulier de l’invention, l’au moins un capteur de perception est pris parmi une caméra, un Lidar, un laser, un capteur acoustique. According to a particular aspect of the invention, the at least one perception sensor is taken from among a camera, a Lidar, a laser, an acoustic sensor.
[0019] Selon un aspect particulier de l’invention, l’au moins un capteur interne est pris parmi un capteur de température, un capteur de pression, un capteur de vitesse. According to a particular aspect of the invention, the at least one internal sensor is taken from among a temperature sensor, a pressure sensor, a speed sensor.
[0020] Selon un aspect particulier de l’invention, la première unité apprenante implémente un algorithme d’apprentissage automatique configuré pour générer des données caractéristiques de l’environnement à partir de l’au moins un capteur de perception. According to a particular aspect of the invention, the first learning unit implements an automatic learning algorithm configured to generate data characteristic of the environment from the at least one perception sensor.
[0021] Selon un aspect particulier de l’invention, le dispositif comprend une unité de stockage de données pour sauvegarder les données générées par la première unité apprenante sur une durée prédéterminée. According to a particular aspect of the invention, the device comprises a data storage unit for saving the data generated by the first learning unit over a predetermined period.
[0022] Selon un aspect particulier de l’invention, le générateur de scénarios de simulation et/ou le simulateur et/ou la plateforme de virtualisation sont aptes à être déportés dans un serveur centralisé. [0022] According to a particular aspect of the invention, the simulation scenario generator and/or the simulator and/or the virtualization platform are capable of being deported to a centralized server.
[0023] Selon un aspect particulier de l’invention, la plateforme de virtualisation est apte à recevoir des scénarios de simulation générés par des systèmes cyber- physique distants appartenant à une flotte de systèmes. [0023] According to a particular aspect of the invention, the virtualization platform is able to receive simulation scenarios generated by remote cyber-physical systems belonging to a fleet of systems.
[0024] Selon un aspect particulier de l’invention, le dispositif comprend en outre un organe de conversion d’un scénario de simulation en description sémantique textuelle destinée à être transmise à d’autres systèmes appartenant à la même flotte et un organe de génération d’un scénario de simulation à partir d’une description sémantique textuelle reçue. [0025] L’invention a aussi pour objet un système cyber-physique mobile muni d’actionneurs comprenant un dispositif apprenant selon l’invention configuré pour commander les actionneurs pour commander ledit système dans son environnement. [0024] According to a particular aspect of the invention, the device further comprises a unit for converting a simulation scenario into a textual semantic description intended to be transmitted to other systems belonging to the same fleet and a generating unit of a simulation scenario from a textual semantic description received. The invention also relates to a mobile cyber-physical system provided with actuators comprising a learning device according to the invention configured to control the actuators to control said system in its environment.
[0026] D’autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit en relation aux dessins annexés suivants. Other characteristics and advantages of the present invention will appear better on reading the following description in relation to the following appended drawings.
[0027] [Fig. 1] représente un schéma d’une première variante de réalisation d’un système cyber-physique selon l’invention, [0027] [Fig. 1] represents a diagram of a first variant embodiment of a cyber-physical system according to the invention,
[0028] [Fig. 2] représente une deuxième variante de réalisation du système de la figure 1 , [0028] [Fig. 2] represents a second alternative embodiment of the system of FIG. 1,
[0029] [Fig. 3] représente une troisième variante de réalisation du système de la figure 1 , [0029] [Fig. 3] represents a third alternative embodiment of the system of FIG. 1,
[0030] [Fig. 4] représente une quatrième variante de réalisation du système de la figure 1 , [0030] [Fig. 4] represents a fourth alternative embodiment of the system of FIG. 1,
[0031] [Fig. 5] représente un exemple de mise en oeuvre distribuée du système selon l’invention. [0031] [Fig. 5] represents an example of distributed implementation of the system according to the invention.
[0032] La figure 1 illustre, sur un schéma, un exemple de système cyber-physique selon l’invention comprenant un dispositif apprenant. Figure 1 illustrates, in a diagram, an example of a cyber-physical system according to the invention comprising a learning device.
[0033] Le système 101 est mobile dans un environnement 102. Par exemple, le système 101 est un véhicule automobile se déplaçant sur une route, ou un robot ou encore un drone. The system 101 is mobile in an environment 102. For example, the system 101 is a motor vehicle moving on a road, or a robot or even a drone.
[0034] Le système 101 se déplace dans son environnement au moyen d’actionneurs 105. Les actionneurs désignent tous les éléments du système qui lui permettent de se déplacer ou encore d’interagir avec son environnement. Par exemple, si le système 101 est un véhicule, les actionneurs 105 comprennent notamment les roues, le volant, le levier de vitesse. Si le système 101 est un robot, les actionneurs 105 comprennent également un bras articulé du robot permettant de saisir un objet. The system 101 moves in its environment by means of actuators 105. The actuators designate all the elements of the system which allow it to move or to interact with its environment. For example, if the system 101 is a vehicle, the actuators 105 notably include the wheels, the steering wheel, the gear lever. If the system 101 is a robot, the actuators 105 also comprise an articulated arm of the robot making it possible to grasp an object.
[0035] De manière générale, les actionneurs 105 sont pilotés par une commande (par exemple un signal électrique) pour interagir avec l’environnement 102. [0036] Le système 101 est muni d’un dispositif apprenant qui comporte les éléments suivants. [0035] In general, the actuators 105 are driven by a command (for example an electrical signal) to interact with the environment 102. The system 101 is provided with a learning device which comprises the following elements.
[0037] Un ou plusieurs capteurs externes 103 sont disposés sur le système 101 pour acquérir des données ou mesures de perception de l’environnement 102. Autrement dit, les capteurs externes ou capteurs de perception 103 comprennent par exemple une caméra, un dispositif Lidar, un laser, un capteur acoustique ou tout autre capteur permettant de mesurer des informations sur l’environnement 102. One or more external sensors 103 are placed on the system 101 to acquire data or environmental perception measurements 102. In other words, the external sensors or perception sensors 103 include, for example, a camera, a Lidar device, a laser, an acoustic sensor or any other sensor making it possible to measure information on the environment 102.
[0038] Le ou les capteurs externes 103 sont reliés à une première unité apprenanteThe external sensor(s) 103 are connected to a first learning unit
104 qui a pour fonction de convertir les données brutes acquises par les capteurs 103 en informations de perception de l’environnement qui soient exploitables pour reconstruire l’environnement 102. 104 which has the function of converting the raw data acquired by the sensors 103 into environmental perception information which can be used to reconstruct the environment 102.
[0039] Par exemple, si les données fournies par les capteurs 103 sont des images, l’unité apprenante 104 a pour fonction de détecter et caractériser des objets dans les images acquises, en particulier des obstacles tels que des piétons ou des bâtiments ou encore de détecter les limites d’une route. For example, if the data provided by the sensors 103 are images, the learning unit 104 has the function of detecting and characterizing objects in the acquired images, in particular obstacles such as pedestrians or buildings or even to detect the limits of a road.
[0040] Pour cela l’unité apprenante 104 implémente un algorithme d’apprentissage automatique, par exemple un algorithme basé sur un réseau de neurones artificiel. For this the learning unit 104 implements an automatic learning algorithm, for example an algorithm based on an artificial neural network.
[0041] Une seconde unité apprenante 106 est utilisée pour commander les actionneurs 105 en fonction, notamment, des données fournies par la première unité apprenante 104 pour caractériser l’environnement. A second learning unit 106 is used to control the actuators 105 depending, in particular, on the data provided by the first learning unit 104 to characterize the environment.
[0042] La seconde unité apprenante 106 implémente un autre algorithme d’apprentissage automatique qui a pour fonction de commander les actionneursThe second learning unit 106 implements another automatic learning algorithm which has the function of controlling the actuators
105 de manière à ce que le système 101 interagisse correctement avec son environnement 102. 105 so that the system 101 interacts correctly with its environment 102.
[0043] Par exemple, si le système 101 est un véhicule, un objectif de la seconde unité apprenante 106 est de piloter le déplacement du véhicule dans son environnement en évitant les collisions avec des obstacles et en respectant le code de la route. Si le système 101 est un robot, un objectif de la seconde unité apprenante 106 est de piloter le déplacement du robot et de commander son bras articulé pour réaliser une mission prédéterminée. [0044] Comme introduit en préambule, le ou les algorithme(s) d’apprentissage(s) implémentés par la seconde unité apprenante 106 sont, au préalable, entraînés à réaliser l’objectif visé sur des données d’apprentissage dans un environnement de test. L’entrainement est notamment réalisé au moyen de scénarios 110 de simulation de l’environnement 102 qui permettent d’entrainer l’unité 106 à réaliser l’objectif visé pour un ensemble de scénarios prédéterminés. [0043] For example, if the system 101 is a vehicle, one objective of the second learning unit 106 is to control the movement of the vehicle in its environment while avoiding collisions with obstacles and respecting the rules of the road. If the system 101 is a robot, one objective of the second learning unit 106 is to control the movement of the robot and to control its articulated arm to carry out a predetermined mission. As introduced in the preamble, the learning algorithm(s) implemented by the second learning unit 106 are, beforehand, trained to achieve the targeted objective on learning data in a learning environment. test. The training is carried out in particular by means of scenarios 110 for simulating the environment 102 which make it possible to train the unit 106 to achieve the target objective for a set of predetermined scenarios.
[0045] Un objectif de l’invention est notamment d’améliorer l’apprentissage réalisé par l’unité 106 pour prendre en compte plus finement l’évolution de l’environnement 102 mais aussi l’évolution des caractéristiques du système 101 dans le temps. An objective of the invention is in particular to improve the learning carried out by the unit 106 to take into account more finely the evolution of the environment 102 but also the evolution of the characteristics of the system 101 over time. .
[0046] Pour cela, le système 101 est également muni de capteurs internes 112 qui ont pour rôle de mesurer des caractéristiques relatives à l’état du système 101 , en particulier l’état des actionneurs 105. Par exemple, les capteurs internes 112 comprennent des capteurs de température, des capteurs de pression, notamment de pression des pneus d’un véhicule, des capteurs de vitesse. For this, the system 101 is also equipped with internal sensors 112 whose role is to measure characteristics relating to the state of the system 101, in particular the state of the actuators 105. For example, the internal sensors 112 comprise temperature sensors, pressure sensors, in particular tire pressure of a vehicle, speed sensors.
[0047] Les mesures fournies par les capteurs internes 112 sont également prises en compte dans l’apprentissage de la seconde unité apprenante 106 pour commander les actionneurs 105. The measurements provided by the internal sensors 112 are also taken into account in the learning of the second learning unit 106 to control the actuators 105.
[0048] Par ailleurs, les données générées par la première unité apprenante 104 sont stockées dans une mémoire 108 sur un intervalle de temps prédéfini. Furthermore, the data generated by the first learning unit 104 is stored in a memory 108 over a predefined time interval.
[0049] Le dispositif apprenant dont est muni le système 101 comporte également un générateur 109 de scénarios de simulation de l’environnement 102. Ce générateur est d’une part alimenté par une définition d’un ensemble de scénarios 110 initiaux prédéterminés pour réaliser l’apprentissage de l’unité apprenante 106. D’autre part, il est alimenté par les données de perception de l’environnement stockées dans la mémoire 108 pour générer de nouveaux scénarios à partir des informations acquises par les capteurs externes 103. Optionnellement, la génération de scénarios prend également en compte des informations fournies par l’unité apprenante 106. The learning device with which the system 101 is equipped also comprises a generator 109 of simulation scenarios of the environment 102. This generator is on the one hand powered by a definition of a set of initial scenarios 110 predetermined to carry out the learning unit 106. On the other hand, it is fed by the environmental perception data stored in the memory 108 to generate new scenarios from the information acquired by the external sensors 103. Optionally, the generation of scenarios also takes into account information provided by the learning unit 106.
[0050] Le générateur 109 est activé suite à un évènement déclencheur. Cet évènement peut être déclenché manuellement par un utilisateur du système 101 , par exemple par le conducteur d’un véhicule qui souhaite mettre à jour l’apprentissage de l’unité 106 suite à un évènement particulier, par exemple une collision du système avec un obstacle. Le déclenchement du générateur 109 peut aussi être réalisé automatiquement au moyen d’un algorithme d’apprentissage automatique configuré pour détecter un évènement particulier, par exemple une collision ou le non respect du code de la route ou encore le non respect d’une mission confiée à un robot, ou bien encore une performance inacceptable du robot pour la tâche réalisée, par exemple, un temps d’exécution excessif. La détection de cet évènement peut être réalisée par la première unité apprenante 104. The generator 109 is activated following a trigger event. This event can be triggered manually by a user of the system 101, for example by the driver of a vehicle who wishes to update the learning of the unit 106 following a particular event, for example a collision of the system with an obstacle. The triggering of the generator 109 can also be carried out automatically by means of an automatic learning algorithm configured to detect a particular event, for example a collision or non-compliance with the highway code or even non-compliance with a mission entrusted to a robot, or even unacceptable performance of the robot for the task performed, for example, excessive execution time. The detection of this event can be performed by the first learning unit 104.
[0051] Suite à l’évènement déclencheur, le générateur 109 génère un nouveau scénario de l’environnement 102 à partir des données stockées dans la mémoire 108 et correspondant à un intervalle de temps prédéfini avant l’évènement déclencheur. Ce nouveau scénario est fourni en entrée d’un simulateur 107 apte à simuler le système 101 dans son environnement simulé correspondant au scénario généré. [0051] Following the triggering event, the generator 109 generates a new scenario of the environment 102 from the data stored in the memory 108 and corresponding to a predefined time interval before the triggering event. This new scenario is supplied as input to a simulator 107 capable of simulating the system 101 in its simulated environment corresponding to the generated scenario.
[0052] Une plateforme de virtualisation 111 est ensuite utilisée pour simuler le comportement global du système 101 y compris le paramétrage de l’unité apprenante 106. La plateforme de virtualisation 111 est apte à modéliser un jumeau numérique du système 101 à partir d’un modèle initial du système et des mesures fournies par les capteurs internes 112. Ainsi, le jumeau numérique permet de reproduire fidèlement le système 101 et ses évolutions au cours du temps et de prendre en compte ces évolutions dans l’apprentissage du pilotage du système par l’unité apprenante 106. Notamment la plateforme de virtualisation 111 utilise les données enregistrées dans la mémoire 108 sur un intervalle de temps prédéfini avant l’évènement déclencheur, comprenant les données remontées des capteurs internes, pour reproduire virtuellement le scénario ayant conduit à l’évènement. L’algorithme d’apprentissage implémenté par l’unité apprenante 106 re-paramètre les actionneurs du système 101 de manière à produire virtuellement un scénario acceptable dans le même environnement simulé. A virtualization platform 111 is then used to simulate the overall behavior of the system 101 including the configuration of the learning unit 106. The virtualization platform 111 is able to model a digital twin of the system 101 from a initial model of the system and of the measurements provided by the internal sensors 112. Thus, the digital twin makes it possible to faithfully reproduce the system 101 and its evolutions over time and to take these evolutions into account in the learning of the piloting of the system by the learning unit 106. In particular the virtualization platform 111 uses the data recorded in the memory 108 over a predefined time interval before the triggering event, including the data fed back from the internal sensors, to virtually reproduce the scenario that led to the event . The learning algorithm implemented by the learning unit 106 re-parameterizes the actuators of the system 101 so as to virtually produce an acceptable scenario in the same simulated environment.
[0053] Plus précisément, la plateforme de virtualisation 111 simule le comportement du jumeau numérique du système dans le scénario simulé par le simulateur 107. Au cours de cette simulation, un nouvel apprentissage de l’algorithme d’apprentissage automatique exécuté par l’unité apprenante 106 est réalisé dans le but de piloter le système afin d’éviter l’incident qui a été déclencheur du nouveau scénario. Par exemple, si l’évènement déclencheur correspond à une collision du véhicule avec un obstacle qui n’a pas été détecté, l’algorithme d’apprentissage utilise les données des capteurs correspondant à un intervalle de temps précédant et intégrant cette collision en tant que données d’apprentissage afin de modifier le paramétrage de la trajectoire du véhicule afin d’apprendre à éviter ce type d’obstacle. Si l’évènement déclencheur correspond à un franchissement, par le véhicule, d’une ligne incompatible avec le respect du code de la route, l’algorithme d’apprentissage utilise ces nouvelles données d’apprentissage afin de modifier le paramétrage de la trajectoire du véhicule pour éviter un tel franchissement de ligne. De manière générale, les données sauvegardées en mémoire 108 et correspondant à un évènement déclencheur sont utilisées en tant que nouvelles données d’apprentissage pour mettre à jour l’algorithme d’apprentissage automatique de sorte à ce que ce type d’évènement ne survienne plus à l’avenir ou autrement dit que le système 101 soit paramétré pour éviter l’apparition d’un tel évènement. More precisely, the virtualization platform 111 simulates the behavior of the digital twin of the system in the scenario simulated by the simulator 107. During this simulation, a new learning of the algorithm The automatic learning process executed by the learning unit 106 is carried out with the aim of controlling the system in order to avoid the incident which triggered the new scenario. For example, if the triggering event corresponds to a collision of the vehicle with an obstacle which has not been detected, the learning algorithm uses the data from the sensors corresponding to a time interval preceding and integrating this collision as learning data in order to modify the parameterization of the trajectory of the vehicle in order to learn how to avoid this type of obstacle. If the triggering event corresponds to a crossing, by the vehicle, of a line incompatible with the respect of the highway code, the learning algorithm uses these new learning data in order to modify the parameter setting of the trajectory of the vehicle to avoid such a line crossing. In general, the data saved in memory 108 and corresponding to a triggering event is used as new learning data to update the automatic learning algorithm so that this type of event no longer occurs. in the future or in other words that the system 101 be configured to avoid the occurrence of such an event.
[0054] Ce nouvel apprentissage est réalisé pour le nouveau scénario simulé mais également pour l’ensemble des scénarios 110 initiaux afin de toujours vérifier que le pilotage du système est compatible de tous les scénarios prévus. Ainsi le nouveau paramétrage des actionneurs, par exemple le contrôle de la transmission dans le cas où le système est un véhicule pour lequel l’évènement déclencheur est une mauvaise trajectoire due à un pneu sous-gonflé, est simulé pour l’ensemble des scénarios 110 initiaux afin de vérifier que le nouvel apprentissage ne génère pas d’autres évènements indésirables. En effet, la modification du paramétrage d’un actionneur peut, potentiellement, engendré d’autres évènements non souhaités dans le contexte des scénarios précédemment testés, il est donc important d’exécuter l’ensemble des scénarios pour chaque nouveau jeu de données d’apprentissage disponibles suite à un évènement déclencheur. This new learning is carried out for the new simulated scenario but also for all the initial scenarios 110 in order to always verify that the control of the system is compatible with all the scenarios provided. Thus the new configuration of the actuators, for example the control of the transmission in the case where the system is a vehicle for which the triggering event is a bad trajectory due to an under-inflated tire, is simulated for all the scenarios 110 to verify that the new learning does not generate other undesirable events. Indeed, the modification of the configuration of an actuator can, potentially, generate other undesired events in the context of the scenarios previously tested, it is therefore important to execute all the scenarios for each new data set of learning available following a triggering event.
[0055] Ainsi, l’algorithme d’apprentissage implémenté par l’unité apprenante 106 est exécuté dans la plateforme de virtualisation 111 avec les paramètres de simulation pour réaliser un nouvel apprentissage de cet algorithme. [0056] A l’issue de cet apprentissage, les nouveaux paramètres de l’algorithme déterminés par la plateforme de virtualisation 111 sont transmis à l’unité apprenante 106 qui va mettre à jour son algorithme d’apprentissage pour modifier le pilotage du système en conditions réelles. Thus, the learning algorithm implemented by the learning unit 106 is executed in the virtualization platform 111 with the simulation parameters to carry out a new learning of this algorithm. At the end of this learning, the new parameters of the algorithm determined by the virtualization platform 111 are transmitted to the learning unit 106 which will update its learning algorithm to modify the control of the system in actual conditions.
[0057] La nouvelle phase d’apprentissage réalisée par la plateforme de virtualisation 111 est, par exemple, réalisée pendant une période d’inactivité du système 101 . Il est également possible de réaliser la phase d’apprentissage sur la plateforme de virtualisation en parallèle de l’opération du système, et transférer les paramètres améliorés au système une fois qu’il sera à l’arrêt ou en condition sûre. The new learning phase carried out by the virtualization platform 111 is, for example, carried out during a period of inactivity of the system 101 . It is also possible to carry out the learning phase on the virtualization platform in parallel with the operation of the system, and transfer the improved parameters to the system once it is stopped or in a safe condition.
[0058] Ainsi, si le système 101 rencontre une situation similaire au scénario ayant conduit à un incident, il pourra améliorer sa réaction afin d’éviter un nouvel incident. Thus, if the system 101 encounters a situation similar to the scenario that led to an incident, it can improve its reaction in order to avoid a new incident.
[0059] Pour illustrer le fonctionnement du système selon l’invention, un exemple d’application est à présent décrit pour le cas d’une voiture autonome. To illustrate the operation of the system according to the invention, an application example is now described for the case of an autonomous car.
[0060] Un évènement déclencheur de la génération d’un nouveau scénario est, par exemple, le dépassement d’une ligne, le non respect d’un feu de circulation ou une collision avec un obstacle ou plus généralement un accident de la circulation. [0060] A triggering event for the generation of a new scenario is, for example, crossing a line, not respecting a traffic light or a collision with an obstacle or more generally a traffic accident.
[0061] Suite à cet évènement, le générateur 109 produit un scénario de simulation correspondant à cet accident à partir des données enregistrées en mémoire 108. La plateforme de virtualisation 111 va ensuite réaliser un nouvel apprentissage de l’algorithme de pilotage à partir de ce scénario avec pour objectif de modifier le pilotage du véhicule pour éviter l’accident. Les nouveaux paramètres de l’algorithme d’intelligence artificielle exécuté par l’unité apprenante 106 sont ensuite mis à jour pour que le véhicule améliore sa réaction si le scénario ayant conduit à l’accident se reproduit. Les paramètres mis à jour restent compatibles des autres scénarios précédemment validés. [0061] Following this event, the generator 109 produces a simulation scenario corresponding to this accident from the data recorded in memory 108. The virtualization platform 111 will then carry out a new learning of the control algorithm from this scenario with the aim of modifying the steering of the vehicle to avoid an accident. The new parameters of the artificial intelligence algorithm executed by the learning unit 106 are then updated so that the vehicle improves its reaction if the scenario which led to the accident is reproduced. The updated parameters remain compatible with other previously validated scenarios.
[0062] La plateforme de virtualisation 111 prend en compte, via la simulation du jumeau numérique du véhicule, les caractéristiques internes de la voiture, par exemple le niveau de pression des pneus ou bien leur état d’usage qui peut être estimé à travers une corrélation entre le temps écoulé depuis qu’ils ont été changés, et leur niveau d’utilisation. [0063] Dans le cas d’un robot, l’apprentissage vise par exemple à améliorer la manipulation d’un bras articulé du robot pour améliorer sa préhension pour saisir certains types d’objets ou exécuter certaines tâches qui nécessitent une précision. [0062] The virtualization platform 111 takes into account, via the simulation of the digital twin of the vehicle, the internal characteristics of the car, for example the level of tire pressure or else their state of use which can be estimated through a correlation between the time elapsed since they were changed, and their level of use. [0063] In the case of a robot, the learning aims for example to improve the handling of an articulated arm of the robot in order to improve its grip in order to grasp certain types of objects or perform certain tasks which require precision.
[0064] Un avantage procuré par l’invention est qu’elle permet d’améliorer l’apprentissage de l’unité apprenante en charge du pilotage du système en fonction d’évènements qui interviennent en conditions opérationnelles. En particulier, l’invention permet de réagir à des évènements ponctuels qui n’ont pas été prévus dans les scénarios d’apprentissage initiaux utilisés pour mettre au point l’algorithme d’apprentissage. An advantage provided by the invention is that it makes it possible to improve the learning of the learning unit in charge of controlling the system according to events which occur in operational conditions. In particular, the invention makes it possible to react to specific events which were not foreseen in the initial learning scenarios used to develop the learning algorithm.
[0065] Par ailleurs, contrairement aux solutions basées sur un apprentissage dit hors ligne, au moyen de véhicules de test, l’invention prend en compte, par l’intermédiaire d’un jumeau numérique du système, l’évolution au cours du temps de l’état du système. [0065] Furthermore, unlike solutions based on so-called offline learning, by means of test vehicles, the invention takes into account, via a digital twin of the system, the evolution over time of the state of the system.
[0066] L’unité apprenante 106 en charge du pilotage du système 101 exécute un ou plusieurs algorithmes d’apprentissage automatique qui reçoivent en entrée l’ensemble des données acquises par les capteurs externes 103 et internes 112 ainsi que les données de perception de l’environnement produites par la première unité apprenante 104 et produisent en sortie une ou plusieurs commande(s) à destination des actionneurs 105. The learning unit 106 in charge of controlling the system 101 executes one or more automatic learning algorithms which receive as input all the data acquired by the external 103 and internal 112 sensors as well as the perception data of the environment produced by the first learning unit 104 and produce as output one or more command(s) intended for the actuators 105.
[0067] Les algorithmes implémentés par l’unité 106 peuvent être choisis parmi les algorithmes de l’état de l’art connus de l’Homme du métier. Sans être exhaustif, on cite plusieurs exemples possibles de tels algorithmes. La référence [1] décrit un algorithme d’aide au stationnement d’un véhicule. La référence [2] décrit un procédé de détection d’évènements de nature connue qui peut être utilisé pour détecter un évènement particulier et déclencher la génération d’un nouveau scénario. La référence [3] décrit un algorithme permettant d’adapter le contrôle d’un véhicule en temps réel. La référence [4] décrit un algorithme d’intelligence artificielle qui permet d’adapter le contrôle d’un véhicule dans un terrain modélisé. La référence [5] décrit un algorithme d’intelligence artificielle pour adapter la génération de trajectoires de robots mobiles. La référence [6] décrit encore un autre exemple d’algorithme d’apprentissage pour la conduite autonome. [0068] La première unité apprenante 104 exécute également un ou plusieurs algorithme(s) d’apprentissage automatique qui ont pour objectif de caractériser l’environnement du système à partir des données acquises par les capteurs externes 103. The algorithms implemented by unit 106 can be chosen from state-of-the-art algorithms known to those skilled in the art. Without being exhaustive, several possible examples of such algorithms are cited. Reference [1] describes a vehicle parking aid algorithm. Reference [2] describes a method for detecting events of known nature which can be used to detect a particular event and trigger the generation of a new scenario. Reference [3] describes an algorithm making it possible to adapt the control of a vehicle in real time. Reference [4] describes an artificial intelligence algorithm which makes it possible to adapt the control of a vehicle in a modeled terrain. Reference [5] describes an artificial intelligence algorithm to adapt the generation of mobile robot trajectories. Reference [6] describes yet another example of a learning algorithm for autonomous driving. The first learning unit 104 also executes one or more automatic learning algorithm(s) which aim to characterize the environment of the system from the data acquired by the external sensors 103.
[0069] Les algorithmes implémentés par l’unité 104 peuvent être choisis parmi les algorithmes de l’état de l’art connus de l’Homme du métier. Sans être exhaustif, on cite plusieurs exemples possibles de tels algorithmes. The algorithms implemented by unit 104 can be chosen from state-of-the-art algorithms known to those skilled in the art. Without being exhaustive, several possible examples of such algorithms are cited.
[0070] La référence [7] décrit un algorithme de détection d’évènements particuliers dans une séquence vidéo. [0070] Reference [7] describes an algorithm for detecting particular events in a video sequence.
[0071] La référence [9] décrit une méthode de détection pour des mesures acquises par des capteurs d’environnement. [0071] Reference [9] describes a detection method for measurements acquired by environmental sensors.
[0072] La référence [10] décrit une méthode de détection de piétons dans une séquence vidéo. [0072] Reference [10] describes a method for detecting pedestrians in a video sequence.
[0073] La référence [11] décrit une autre méthode de détection d’objets dans des images. [0073] Reference [11] describes another method for detecting objects in images.
[0074] La référence [13] décrit un procédé de caractérisation d’une scène en 3D. [0074] Reference [13] describes a method for characterizing a 3D scene.
[0075] La référence [14] décrit une méthode de reconnaissance d’objets dans une scène observée en 3D. [0075] Reference [14] describes a method for recognizing objects in a scene observed in 3D.
[0076] Par ailleurs, la référence [8] décrit une méthode de génération d’un environnement simulé qui peut être mise en oeuvre par le générateur 109. Furthermore, reference [8] describes a method for generating a simulated environment which can be implemented by the generator 109.
[0077] La référence [12] décrit un système de génération d’un scénario simulé à partir de données fournies par des capteurs qui peut également être utilisé pour réaliser le générateur 109. [0077] Reference [12] describes a system for generating a simulated scenario from data supplied by sensors which can also be used to produce generator 109.
[0078] Chaque composant du dispositif apprenant selon l’invention pris individuellement ou en combinaison avec un autre peut être réalisé, par exemple, au moyen d’un processeur embarqué. Le processeur peut être un processeur générique, un processeur spécifique, un circuit intégré propre à une application (connu aussi sous le nom anglais d’ASIC pour « Application-Specific Integrated Circuit ») ou un réseau de portes programmables in situ (connu aussi sous le nom anglais de FPGA pour « Field-Programmable Gate Array »). Le dispositif apprenant selon l’invention peut utiliser un ou plusieurs circuits électroniques dédiés ou un circuit à usage général. La technique de l'invention peut se réaliser sur une machine de calcul reprogrammable (un processeur ou un micro-contrôleur par exemple) exécutant un programme comprenant une séquence d'instructions, ou sur une machine de calcul dédiée (par exemple un ensemble de portes logiques comme un FPGA ou un ASIC, ou tout autre module matériel, en particulier des modules électroniques neuromorphiques adaptés à l’apprentissage embarqué). Each component of the learning device according to the invention taken individually or in combination with another can be produced, for example, by means of an on-board processor. The processor may be a generic processor, a specific processor, an application-specific integrated circuit (also known as an ASIC for "Application-Specific Integrated Circuit") or an array of field-programmable gates (also known as the English name of FPGA for “Field-Programmable Gate Array”). The learning device according to the invention can use one or more dedicated electronic circuits or a circuit for use general. The technique of the invention can be implemented on a reprogrammable calculation machine (a processor or a microcontroller for example) executing a program comprising a sequence of instructions, or on a dedicated calculation machine (for example a set of gates such as an FPGA or an ASIC, or any other hardware module, in particular neuromorphic electronic modules suitable for embedded learning).
[0079] La figure 1 décrit une première variante de réalisation de l’invention pour laquelle tous les composants du dispositif apprenant sont embarqués dans le système cyber-physique 101. [0079] Figure 1 describes a first embodiment of the invention for which all the components of the learning device are embedded in the cyber-physical system 101.
[0080] La figure 2 décrit une deuxième variante de réalisation de l’invention pour laquelle le générateur 109 de scénario de simulations est déporté à l’extérieur du système 101 , par exemple dans un serveur distant. [0080] Figure 2 describes a second embodiment of the invention for which the simulation scenario generator 109 is remote outside the system 101, for example in a remote server.
[0081] La figure 3 décrit une troisième variante de réalisation de l’invention pour laquelle le générateur 109 de scénario de simulations, le simulateur 107 et la plateforme de virtualisation 111 sont déportés dans un serveur distant. Figure 3 describes a third alternative embodiment of the invention for which the simulation scenario generator 109, the simulator 107 and the virtualization platform 111 are deported to a remote server.
[0082] La figure 4 décrit une quatrième variante de réalisation de l’invention pour laquelle, en outre, l’unité de stockage ou mémoire 108 qui permet de sauvegarder les données de perception sur un intervalle de temps est également déportée dans un serveur distant. [0082] Figure 4 describes a fourth embodiment of the invention for which, in addition, the storage or memory unit 108 which makes it possible to save the perception data over a time interval is also deported to a remote server. .
[0083] Sans sortir du cadre de l’invention, chacun des composants 109,107,111 ,108 peut être déporté seul ou en combinaison avec un autre vers un serveur de calcul ayant des ressources de calcul augmentées. Ces différentes variantes nécessitent que le système 101 comporte un équipement de communication permettant d’échanger des données avec le serveur distant. Il peut s’agir par exemple d’un équipement de communication radio basé sur une technologie sans fil (par exemple technologie 5G). Without departing from the scope of the invention, each of the components 109,107,111, 108 can be remoted alone or in combination with another to a calculation server having increased calculation resources. These different variants require that the system 101 includes communication equipment making it possible to exchange data with the remote server. This may, for example, be radio communication equipment based on wireless technology (e.g. 5G technology).
[0084] La figure 5 décrit un autre mode de réalisation de l’invention pour laquelle les scénarios de simulation générés suite à un évènement sont partagés entre plusieurs systèmes coopérants 501 ,502,503 ensemble au sein d’une flotte. Un avantage de cette variante est qu’elle permet un apprentissage coopératif, l’ensemble des véhicules bénéficiant des nouveaux scénarios générés par chaque véhicule suite à un évènement, et conduisant à une accélération du niveau de sécurité globale de la flotte. FIG. 5 describes another embodiment of the invention for which the simulation scenarios generated following an event are shared between several cooperating systems 501,502,503 together within a fleet. An advantage of this variant is that it allows cooperative learning, with all the vehicles benefiting from the new scenarios generated by each vehicle following an event, and leading to an acceleration of the overall safety level of the fleet.
[0085] Plus précisément, dans ce mode de réalisation, les nouveaux scénarios générés par l’un quelconque des systèmes (le système 501 sur l’exemple de la figure 5) sont retransmis à tous les autres systèmes 502,503 de la flotte pour qu’ils réalisent un nouvel apprentissage. More precisely, in this embodiment, the new scenarios generated by any one of the systems (the system 501 in the example of FIG. 5) are retransmitted to all the other systems 502,503 of the fleet so that they realize a new learning.
[0086] Dans une autre variante de réalisation du système décrit à la figure 5, les scénarios de simulation sont transmis aux autres véhicules de la flotte sous une forme compressée, par exemple sous la forme d’une description sémantique. De cette façon, la bande passante consommée par ces transferts de données est diminuée. In another embodiment variant of the system described in FIG. 5, the simulation scenarios are transmitted to the other vehicles of the fleet in a compressed form, for example in the form of a semantic description. In this way, the bandwidth consumed by these data transfers is reduced.
[0087] Plus précisément, le système 501 qui génère un nouveau scénario, génère également une description sémantique de ce scénario. Par exemple, une description sémantique peut être obtenue à l’aide d’algorithmes d’image sémantique qui créent une description textuelle à partir d’une image. La description textuelle du scénario générée est ensuite transmise aux autres systèmes 502,503 de la flotte qui peuvent re-générer les scénarios de simulation à partir de cette description textuelle en utilisant un algorithme génératif de scène à partir du texte. More precisely, the system 501 which generates a new scenario, also generates a semantic description of this scenario. For example, a semantic description can be obtained using semantic image algorithms that create a textual description from an image. The generated scenario textual description is then transmitted to other fleet systems 502,503 which can re-generate the simulation scenarios from this textual description using a generative scene-to-text algorithm.
[0088] La référence [15] donne un exemple de méthode génération de description sémantique à partir d’images. [0088] Reference [15] gives an example of a semantic description generation method from images.
[0089] La référence [16] donne un exemple de méthode de génération de scène à partir d’une description sémantique (ontologie). [0089] Reference [16] gives an example of a scene generation method from a semantic description (ontology).
[0090] Cette variante de réalisation présente un avantage important pour limiter la quantité de données échangées entre les systèmes de la flotte pour partager les scénarios. [0090] This variant embodiment has a significant advantage in terms of limiting the quantity of data exchanged between the systems of the fleet to share the scenarios.
[0091] Références [0091] References
[0092] [1 ] Demande de brevet européen EP3152097 [0092] [1] European patent application EP3152097
[0093] [2] Demande de brevet européen EP3198523 [0093] [2] European patent application EP3198523
[0094] [3] A. Hill, E. Lucet, R. Lenain, ‘Neuroevolution with CMA-ES for real-time gain tuning of a car-like robot controller’, proc. 16th Int. Conf, on Informatics in Control, Automation and Robotics, 29-31 July 2019, Prague, Czech Republic, 9 pages. [0094] [3] A. Hill, E. Lucet, R. Lenain, 'Neuroevolution with CMA-ES for real-time gain tuning of a car-like robot controller', proc. 16th Int. Conf, on Informatics in Control, Automation and Robotics, 29-31 July 2019, Prague, Czech Republic, 9 pages.
[0095] [4] E. Lucet, R. Lenain, C. Grand, ‘Dynamic path tracking control of a vehicle on slippery terrain’, Control Engineering Practice, 42, Sept. 2015, pp. 60-73. [0095] [4] E. Lucet, R. Lenain, C. Grand, ‘Dynamic path tracking control of a vehicle on slippery terrain’, Control Engineering Practice, 42, Sept. 2015, pp. 60-73.
[0096] [5] M.A. Rahmouni, E. Lucet, R. Bearee, A. Olabi, M. Grossard, ‘Robot trajectory generation for three-dimensional flexible load transfer’, proc. 45th Annual Conf, of the IEEE Industrial Electronics Society., 14-17 Oct. 2019, Lisbon, Portugal, pp. 711 -716. [0096] [5] M.A. Rahmouni, E. Lucet, R. Bearee, A. Olabi, M. Grossard, ‘Robot trajectory generation for three-dimensional flexible load transfer’, proc. 45th Annual Conf, of the IEEE Industrial Electronics Society., 14-17 Oct. 2019, Lisbon, Portugal, pp. 711 -716.
[0097] [6] A. Amini et al., "Learning Robust Control Policies for End-to-End Autonomous Driving From Data-Driven Simulation," in IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 1143-1150, April 2020, doi: 10.1109/LRA.2020.2966414. [0097] [6] A. Amini et al., "Learning Robust Control Policies for End-to-End Autonomous Driving From Data-Driven Simulation," in IEEE Robotics and Automation Letters, vol. 5, no. 2, p. 1143-1150, April 2020, doi: 10.1109/LRA.2020.2966414.
[0098] [7] P.C. Ribeiro, R. Audigier, Q.C. Pham, ‘RIMOC, a feature to discriminate unstructured motions: Application to violence detection for video-surveillance’, Computer Vision and Image Understanding, 144, March 2016, pp.121 -143. [0098] [7] P.C. Ribeiro, R. Audigier, Q.C. Pham, 'RIMOC, a feature to discriminate unstructured motions: Application to violence detection for video-surveillance', Computer Vision and Image Understanding, 144, March 2016, pp.121 -143.
[0099] [8] D. Larnaout, V. Gay-Bellile, S. Bourgeois, M. Dhome, ‘Fast and automatic city-scale environment modelling using hard and/or weak constrained bundle adjustments’, Machine Vision and Applications, 27(6), Aug. 2016, pp. 943-962. [0099] [8] D. Larnaout, V. Gay-Bellile, S. Bourgeois, M. Dhome, 'Fast and automatic city-scale environment modeling using hard and/or weak constrained bundle adjustments', Machine Vision and Applications, 27 (6), Aug. 2016, p. 943-962.
[0100] [9] G. Vaquette, C. Achard, L. Lucat, ‘Robust information fusion in the DOHT paradigm for real time action detection’, Journal of Real-Time Image Processing, online Déc. 2016, 14p. [0100] [9] G. Vaquette, C. Achard, L. Lucat, ‘Robust information fusion in the DOHT paradigm for real time action detection’, Journal of Real-Time Image Processing, online Dec. 2016, 14p.
[0101] [10] T. Chesnais, T. Chateau, N. Allezard, Y. Dhome, B. Meden, M. Tamaazousti, A. Chan-Hon-Tong, ‘A Region Driven and Contextualized Pedestrian Detector’, proc. 8th Int. Conf, on Computer Vision Theory and Application, 21 -24 Feb. 2013, Barcelona, Spain, pp. 796-799. [0101] [10] T. Chesnais, T. Chateau, N. Allerard, Y. Dhome, B. Meden, M. Tamaazousti, A. Chan-Hon-Tong, ‘A Region Driven and Contextualized Pedestrian Detector’, proc. 8th Int. Conf, on Computer Vision Theory and Application, 21 -24 Feb. 2013, Barcelona, Spain, p. 796-799.
[0102] [11] F. Chabot, M. Chaouch, J. Rabarisoa, C. Teulière, T. Chateau, ‘Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image’, proc. IEEE Conf, on Computer Vision and Pattern Recognition, 21 -26 July 2017, Honolulu, Hawaii, USA, pp. 1827-1836. [0102] [11] F. Chabot, M. Chaouch, J. Rabarisoa, C. Teulière, T. Chateau, 'Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image ', proc. IEEE Conf, on Computer Vision and Pattern Recognition, 21 -26 July 2017, Honolulu, Hawaii, USA, pp. 1827-1836.
[0103] [12] demande internationale WO 2018011497 [0103][12] international application WO 2018011497
[0104] [13] demande de brevet européen EP3384462 [0105] [14] demande de brevet français FR 3076028 [0104] [13] European patent application EP3384462 [0105] [14] French patent application FR 3076028
[0106] [15] « A hierarchical approach for generating descriptive image paragraphs », J. Krause et al. Stanford University, 10/04/2017 [0106] [15] “A hierarchical approach for generating descriptive image paragraphs”, J. Krause et al. Stanford University, 04/10/2017
[0107] [16] “Ontology based scene creation for the development of automated vehicles”, G. Bagschik et al, Institute of control engineering, 23/04/2018. [0107] [16] “Ontology based scene creation for the development of automated vehicles”, G. Bagschik et al, Institute of control engineering, 04/23/2018.

Claims

REVENDICATIONS Dispositif apprenant destiné à être embarqué dans un système cyber-physique (101 ) mobile muni d’actionneurs (105), le dispositif comprenant au moins un capteur (103) de perception de l’environnement (102) externe du système, au moins un capteur interne (112) apte à fournir une information sur l’état du système, une première unité apprenante (104) configurée pour restituer une perception de l’environnement à partir des données acquises par l’au moins un capteur de perception (103), une seconde unité apprenante (106) configurée pour commander les actionneurs (105), un générateur (109) de scénarios de simulation du système dans son environnement commandé par la première unité apprenante (104) et la seconde unité apprenante (106), un simulateur (107) de scénarios et une plateforme de virtualisation (111 ) pour simuler le comportement d’un jumeau numérique du système dans les scénarios simulés par le générateur et adapter les paramètres de la seconde unité apprenante (106) afin de commander le système de manière à ce qu’il s’adapte à son environnement, la seconde unité apprenante (106) implémentant un algorithme d’apprentissage automatique pour commander les actionneurs (105) à partir de l’au moins un capteur de perception (104), de l’au moins un capteur interne (112), l’algorithme d’apprentissage automatique étant entrainé au moyen des scénarios de simulation simulés dans la plateforme de virtualisation (111 ), le dispositif comprenant un organe de déclenchement du générateur (109) de scénarios de simulation en fonction d’un type d’évènement prédéterminé détecté par la première unité apprenante (104), l’évènement prédéterminé étant déclenché par un utilisateur ou par un algorithme de supervision apte à détecter un évènement, le dispositif étant caractérisé en ce que le générateur (109) de scénarios de simulation est configuré pour générer, sur commande de l’organe de déclenchement, un scénario de simulation de l’environnement du système dans une fenêtre de temps avant le déclenchement de l’évènement, dans lequel le comportement du système cyber-physique (101 ) est simulé au moyen d’un jumeau numérique du système cyber-physique (101 ) à partir d’un modèle initial du système et d’informations fournies par l’au moins un capteur interne (112), dans le scénario de simulation généré par le générateur (109), et en ce que la plateforme de virtualisation (111 ) est configurée pour interagir avec la seconde unité apprenante (106) qui met à jour les paramètres de l’algorithme d’apprentissage automatique de manière à modifier le comportement du système cyber-physique (101 ) dans ledit scénario de simulation généré jusqu’à ne plus reproduire ledit évènement déclencheur dans ledit scénario de simulation. Dispositif apprenant selon la revendication 1 , dans lequel la seconde unité apprenante vérifie que lesdits paramètres mis à jour sont compatibles avec un ensemble de scénarios initiaux non liés audit évènement déclencheur, auquel cas la seconde unité apprenante met à jour l’algorithme d’apprentissage automatique par un nouvel apprentissage utilisant lesdits paramètres mis à jour. Dispositif selon l’une quelconque des revendications précédentes dans lequel le système cyber-physique (101 ) est un véhicule autonome, un robot ou un drone. Dispositif selon l’une quelconque des revendications précédentes dans lequel l’au moins un capteur de perception (103) est pris parmi une caméra, un Lidar, un laser, un capteur acoustique. Dispositif selon l’une quelconque des revendications précédentes dans lequel l’au moins un capteur interne (112) est pris parmi un capteur de température, un capteur de pression, un capteur de vitesse. Dispositif selon l’une quelconque des revendications précédentes dans lequel la première unité apprenante (104) implémente un algorithme d’apprentissage automatique configuré pour générer des données caractéristiques de l’environnement à partir de l’au moins un capteur de perception (103). Dispositif selon l’une quelconque des revendications précédentes comprenant une unité de stockage de données (108) pour sauvegarder les données générées par la première unité apprenante (104) sur une durée prédéterminée. Dispositif selon l’une quelconque des revendications précédentes dans lequel le générateur (109) de scénarios de simulation et/ou le simulateur (107) et/ou la plateforme de virtualisation (111 ) sont aptes à être déportés dans un serveur centralisé. Dispositif selon l’une quelconque des revendications précédentes dans lequel la plateforme de virtualisation (111 ) est apte à recevoir des scénarios de simulation générés par des systèmes cyber-physique distants appartenant à une flotte de systèmes. Dispositif selon la revendication 9 comprenant en outre un organe de conversion d’un scénario de simulation en description sémantique textuelle destinée à être transmise à d’autres systèmes appartenant à la même flotte et un organe de génération d’un scénario de simulation à partir d’une description sémantique textuelle reçue. Système cyber-physique mobile (101 ) muni d’actionneurs (105) comprenant un dispositif apprenant selon l’une quelconque des revendications précédentes configuré pour commander les actionneurs pour commander ledit système dans son environnement (102). CLAIMS Learning device intended to be embedded in a mobile cyber-physical system (101) equipped with actuators (105), the device comprising at least one sensor (103) for perceiving the environment (102) external to the system, at least an internal sensor (112) capable of providing information on the state of the system, a first learning unit (104) configured to restore a perception of the environment from the data acquired by the at least one perception sensor (103 ), a second learning unit (106) configured to control the actuators (105), a generator (109) of simulation scenarios of the system in its environment controlled by the first learning unit (104) and the second learning unit (106), a scenario simulator (107) and a virtualization platform (111) for simulating the behavior of a digital twin of the system in the scenarios simulated by the generator and adapting the parameters of the second learning unit (106) to end of controlling the system so that it adapts to its environment, the second learning unit (106) implementing an automatic learning algorithm to control the actuators (105) from the at least one sensor of perception (104), of the at least one internal sensor (112), the automatic learning algorithm being trained by means of the simulation scenarios simulated in the virtualization platform (111), the device comprising a device for triggering the generator (109) of simulation scenarios according to a type of predetermined event detected by the first learning unit (104), the predetermined event being triggered by a user or by a supervision algorithm capable of detecting an event, the device being characterized in that the simulation scenario generator (109) is configured to generate, on command from the trigger member, a simulation scenario of the environment of the system in a window of time before the triggering of the event, in which the behavior of the cyber-physical system (101 ) is simulated by means of a digital twin of the cyber-physical system (101 ) from an initial model of the system and d information provided by the at least one internal sensor (112), in the simulation scenario generated by the generator (109), and in that the virtualization platform (111) is configured to interact with the second learning unit (106) which updates the parameters of the automatic learning algorithm so as to modify the behavior of the cyber-physical system (101) in said generated simulation scenario until it no longer reproduces said triggering event in said simulation scenario. A learning device according to claim 1, wherein the second learning unit verifies that said updated parameters are compatible with a set of initial scenarios unrelated to said triggering event, in which case the second learning unit updates the automatic learning algorithm by a new learning using said updated parameters. Device according to any one of the preceding claims, in which the cyber-physical system (101) is an autonomous vehicle, a robot or a drone. Device according to any one of the preceding claims, in which the at least one perception sensor (103) is taken from among a camera, a Lidar, a laser, an acoustic sensor. Device according to any one of the preceding claims, in which the at least one internal sensor (112) is taken from among a temperature sensor, a pressure sensor, a speed sensor. Device according to any one of the preceding claims, in which the first learning unit (104) implements an automatic learning algorithm configured to generate data characteristic of the environment from the at least one perception sensor (103). Apparatus according to any preceding claim comprising a data storage unit (108) for saving data generated by the first learner unit (104) over a predetermined period of time. Device according to any one of the preceding claims, in which the generator (109) of simulation scenarios and/or the simulator (107) and/or the virtualization platform (111) are suitable for being remoted to a centralized server. Device according to any one of the preceding claims, in which the virtualization platform (111) is capable of receiving simulation scenarios generated by remote cyber-physical systems belonging to a fleet of systems. Device according to claim 9 further comprising a unit for converting a simulation scenario into textual semantic description intended to be transmitted to other systems belonging to the same fleet and a unit for generating a simulation scenario from a received textual semantic description. Mobile cyber-physical system (101) provided with actuators (105) comprising a learning device according to any one of the preceding claims configured to control the actuators to control said system in its environment (102).
EP21815481.3A 2020-11-23 2021-11-18 Learning device for mobile cyber-physical system Pending EP4248367A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2011987A FR3116634B1 (en) 2020-11-23 2020-11-23 Learning device for mobile cyber-physical system
PCT/EP2021/082153 WO2022106545A1 (en) 2020-11-23 2021-11-18 Learning device for mobile cyber-physical system

Publications (1)

Publication Number Publication Date
EP4248367A1 true EP4248367A1 (en) 2023-09-27

Family

ID=74860038

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21815481.3A Pending EP4248367A1 (en) 2020-11-23 2021-11-18 Learning device for mobile cyber-physical system

Country Status (4)

Country Link
US (1) US20230401453A1 (en)
EP (1) EP4248367A1 (en)
FR (1) FR3116634B1 (en)
WO (1) WO2022106545A1 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3021938B1 (en) 2014-06-04 2016-05-27 Commissariat Energie Atomique PARKING ASSIST DEVICE AND VEHICLE EQUIPPED WITH SUCH A DEVICE.
FR3026526B1 (en) 2014-09-26 2017-12-08 Commissariat Energie Atomique METHOD AND SYSTEM FOR DETECTING EVENTS OF KNOWN NATURE
FR3044450B1 (en) 2015-12-01 2017-11-24 Commissariat Energie Atomique METHOD OF CHARACTERIZING A SCENE BY CALCULATING 3D ORIENTATION
FR3054062B1 (en) 2016-07-13 2018-08-24 Commissariat Energie Atomique SYSTEM AND METHOD FOR ONBOARD CAPTURE AND 3D / 360 ° REPRODUCTION OF THE MOVEMENT OF AN OPERATOR IN ITS ENVIRONMENT
US11042155B2 (en) * 2017-06-06 2021-06-22 Plusai Limited Method and system for closed loop perception in autonomous driving vehicles
FR3076028B1 (en) 2017-12-21 2021-12-24 Commissariat Energie Atomique METHOD OF RECOGNITION OF OBJECTS IN A SCENE OBSERVED IN THREE DIMENSIONS
DE102018220865B4 (en) * 2018-12-03 2020-11-05 Psa Automobiles Sa Method for training at least one algorithm for a control unit of a motor vehicle, computer program product and motor vehicle
DE102019206908B4 (en) * 2019-05-13 2022-02-17 Psa Automobiles Sa Method for training at least one algorithm for a control unit of a motor vehicle, computer program product, motor vehicle and system

Also Published As

Publication number Publication date
US20230401453A1 (en) 2023-12-14
WO2022106545A1 (en) 2022-05-27
FR3116634A1 (en) 2022-05-27
FR3116634B1 (en) 2022-12-09

Similar Documents

Publication Publication Date Title
US20200363800A1 (en) Decision Making Methods and Systems for Automated Vehicle
US10990099B2 (en) Motion planning methods and systems for autonomous vehicle
US10867409B2 (en) Methods and systems to compensate for vehicle calibration errors
US10929995B2 (en) Method and apparatus for predicting depth completion error-map for high-confidence dense point-cloud
US11110917B2 (en) Method and apparatus for interaction aware traffic scene prediction
US10836395B2 (en) Efficient optimal control with dynamic model for autonomous vehicle
CN110901656B (en) Experimental design method and system for autonomous vehicle control
US20200247402A1 (en) Reinforcement learning with scene decomposition for navigating complex environments
US11628865B2 (en) Method and system for behavioral cloning of autonomous driving policies for safe autonomous agents
Liu Engineering autonomous vehicles and robots: the dragonfly modular-based approach
CN111208814A (en) Memory-based optimal motion planning for autonomous vehicles using dynamic models
Menhour et al. A new model-free design for vehicle control and its validation through an advanced simulation platform
George et al. Imitation learning for end to end vehicle longitudinal control with forward camera
US20200033870A1 (en) Fault Tolerant State Estimation
Swief et al. A survey of automotive driving assistance systems technologies
US20210056014A1 (en) Method for rating a software component of an sil environment
EP4248367A1 (en) Learning device for mobile cyber-physical system
CN115761431A (en) System and method for providing spatiotemporal cost map inferences for model predictive control
US11603119B2 (en) Method and apparatus for out-of-distribution detection
Gupta et al. Smart autonomous vehicle using end to end learning
US11989020B1 (en) Training machine learning model(s), in simulation, for use in controlling autonomous vehicle(s)
Berettoni Environment perception for an autonomous radio-controlled vehicle with artificial intelligence algorithm
Drage Safe Systems Design for Special Purpose Autonomous Vehicles
WO2023110706A1 (en) Method for supervising the operation of a motor vehicle
EP4348179A1 (en) Method for locating autonomous vehicles

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230524

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)