FR3083354A1

FR3083354A1 - Procede de modelisation pour le controle des resultats fournis par un reseau de neurones artificiels et autres procedes associes

Info

Publication number: FR3083354A1
Application number: FR1856012A
Authority: FR
Inventors: Benoit Schmauch; Johan Ferret; Nicolas Meric
Original assignee: Dreamquark
Current assignee: Dreamquark
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-03
Also published as: CA3104759A1; US20210279526A1; WO2020002573A1; SG11202012987TA; EP3815001A1

Abstract

Un aspect de l'invention concerne un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes : - Générer un réseau de neurones artificiels ; - Entraîner le réseau de neurones artificiels sur une base de données d'entraînement ; - Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d'une pluralité de variables vi de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables vi ; - Pour chaque résultat R : • Approximer par un modèle linéaire une première fonction Fi dépendant uniquement du résultat R pour obtenir une deuxième fonction F2, la première fonction F1 et la deuxième fonction F2 dépendant des variables vi ; • Simplifier la deuxième fonction F2 pour obtenir une troisième fonction F3 dépendant d'un nombre plus réduit de variables vi ; • Appliquer à la troisième fonction F3 la fonction inverse de la première fonction F1 pour obtenir un modèle de fonctionnement du réseau de neurones.

Description

PROCEDE DE MODELISATION POUR LE CONTROLE DES RESULTATS

FOURNIS PAR UN RESEAU DE NEURONES ARTIFICIELS ET AUTRES

PROCEDES ASSOCIES

DOMAINE TECHNIQUE DE L’INVENTION

Le domaine technique de l’invention est celui des réseaux de neurones artificiels.

La présente invention concerne un procédé permettant le contrôle des résultats fournis par un réseau de neurones artificiels et plus particulièrement un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels. La présente invention concerne également un procédé de contrôle des résultats fournis par un réseau de neurones artificiels, un procédé de comparaison des performances de deux réseaux de neurones artificiels, un dispositif et un produit-programme d’ordinateur mettant en œuvre de tels procédés et un support d’enregistrement du produit-programme d’ordinateur.

ARRIERE-PLAN TECHNOLOGIQUE DE L’INVENTION

Les réseaux de neurones ou réseaux de neurones artificiels constituent le principal outil de l’apprentissage profond ou deep learning qui tente de modéliser des données afin d’être capable par la suite d’effectuer des tâches spécifiques avec de nouvelles données, comme des tâches de classification ou de détection. Pour cela, un réseau de neurones passe par une phase d'entraînement ou phase d’apprentissage pendant laquelle il apprend en parcourant sur plusieurs itérations une base de données d’entraînement puis par une phase de généralisation pendant laquelle il réalise, sur une base de données de généralisation, la tâche pour laquelle il a été entraîné.

Un réseau de neurones est un algorithme complexe, faisant intervenir plusieurs milliers - voire millions de paramètres dans sa prise de décision. Si cette complexité est nécessaire pour que le réseau de neurones ait la capacité de détecter des structures dans des données, elle limite l’interprétation qui peut être faite des résultats par un utilisateur, l’empêchant de contrôler leur pertinence.

Par exemple, dans le cas de la détection de personnes dans une image, on fournit en entrée une image au réseau de neurones et celui-ci fournit idéalement en sortie la même image dans laquelle il a encadré les personnes. Le réseau de neurones peut fournir en sortie l’image dans laquelle il aura bien encadré toutes les personnes présentes - ce qui suggérera à l’utilisateur que le réseau de neurones est performant - sans pour autant que les paramètres qu’il a utilisés pour détecter les personnes soient tous pertinents. Par exemple, si toutes les images qui ont été fournies au réseau de neurones lors de son apprentissage représentent une personne sur un fond de ciel bleu, le réseau de neurones aura pu choisir de baser son résultat notamment sur la couleur du fond et non uniquement sur les caractéristiques propres à une personne. Le réseau de neurones détecte alors très bien les personnes sur un fond bleu mais sera incapable de détecter une personne sur un fond rouge. Dans ce cas précis, le réseau de neurones n’est pas adapté à la détection de personnes. Pourtant, l’utilisateur aurait pu conclure le contraire sur la base des résultats fournis par le réseau de neurones sur les images avec un fond bleu.

Dans le domaine du traitement des images, il existe des outils visuels permettant d’afficher les zones de l’image sur la base desquelles le réseau de neurones a pris sa décision. Cependant, ces outils ne sont pas adaptés à d’autres types de données, comme des enregistrements sonores ou des données biologiques.

Un autre exemple serait le cas où l’utilisateur a deux réseaux de neurones différents présentant des performances similaires sur une base de test et où il veut déterminer celui des deux réseaux de neurones qui utilise dans sa prise de décision des variables préférées par l’utilisateur. Les variables préférées sont par exemple des variables plus facilement interprétables. Par exemple, dans le cas de la classification d’animaux en deux classes, ours polaire et ours grizzly, à partir de données comprenant par exemple la couleur du pelage, le type d’alimentation, l’âge de l’animal, la taille de l’animal etc., une variable préférée de l’utilisateur pourrait être la couleur du pelage puisqu’il s’agit de la différence la plus évidente entre les deux espèces. Les deux réseaux de neurones peuvent tous les deux présenter les mêmes performances et classifier correctement la donnée mais l’utilisateur préférera utiliser dans son application le premier réseau de neurones qui utilise principalement la couleur du pelage et dont le fonctionnement est donc plus facilement appréhendable que le deuxième réseau de neurones qui utilise également l’âge de l’animal et sa taille pour conclure.

Il existe donc un besoin pour un utilisateur de contrôler facilement les résultats fournis par un réseau de neurones artificiels pour s’assurer que celui-ci ne prend pas en compte des données non pertinentes, quel que soit le type de données traitées.

RESUME DE L’INVENTION

L’invention offre une solution aux problèmes évoqués précédemment, en permettant de contrôler la pertinence des données utilisées dans la prise de décision d’un réseau de neurones pour diagnostiquer une base de données d’entraînement et/ou un réseau de neurones non adaptés à une certaine tâche.

Un premier aspect de l’invention concerne un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes mises en œuvre par un calculateur :

- Générer un réseau de neurones artificiels ;

- Entraîner le réseau de neurones artificiels sur une base de données d’entraînement ;

- Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d’une pluralité de variables Vi de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables Vi ;

- Pour chaque résultat R :

• Approximer par un modèle linéaire une première fonction Fi dépendant uniquement du résultat R pour obtenir une deuxième fonction F2, la première fonction F1 et la deuxième fonction F2 dépendant des variables Vi ;

• Simplifier la deuxième fonction F2 pour obtenir une troisième fonction F3 dépendant d’un nombre plus réduit de variables Vi ;

• Appliquer à la troisième fonction F3 la fonction inverse de la première fonction F1 pour obtenir un modèle de fonctionnement du réseau de neurones.

Grâce à l’invention, un modèle de fonctionnement du réseau de neurones est généré pour chaque donnée testée, chaque modèle de fonctionnement dépendant d’un nombre réduit de variables qui sont les variables ayant le plus de poids dans la prise de décision du réseau de neurones. Il est ainsi plus facile de contrôler les résultats du réseau de neurones pour pouvoir par exemple diagnostiquer une base de données d’entraînement ou comparer les performances de deux réseaux de neurones. Le procédé de modélisation ainsi défini est déterministe et reproductible, c’est-à-dire que le modèle de fonctionnement généré est le même tant que l’on conserve le même réseau de neurones, la même base de données d’entraînement et la même donnée testée.

Outre les caractéristiques qui viennent d’être évoquées dans le paragraphe précédent, le procédé de modélisation selon un premier aspect de l’invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon toutes les combinaisons techniquement possibles.

Avantageusement, la première fonction F1 est une fonction non bornée. Ainsi, l’approximation linéaire de la première fonction F1 est plus pertinente étant donné qu’une fonction linéaire est non bornée.

Avantageusement, la première fonction F1 est définie par :

R ^F‘ = ^l0SÏ^R

Ainsi, le résultat R peut être obtenu en appliquant à la fonction F1 la fonction sigmoïde qui est utilisée dans la régression logistique, l’un des algorithmes les plus simples utilisés en apprentissage automatique.

Avantageusement, la deuxième fonction F2 est le développement limité au premier ordre de la première fonction F1 au voisinage d’une donnée. Ainsi, il suffit de calculer le gradient de la première fonction F1 par rapport aux variables Vi pour obtenir la deuxième fonction F2.

Avantageusement, la deuxième fonction F2 s’exprime comme la somme d’un coefficient d’ordonnée à l’origine b et de la somme des variables Vi multipliées chacune par un coefficient directeur ai :

i

Ainsi, la deuxième fonction F2 est une approximation linéaire de la première fonction F1 par rapport à l’ensemble des variables Vi dont dépend le résultat.

Avantageusement, une première variable vi corrélée à une deuxième variable V2 s’exprime en fonction de la deuxième variable V2 comme la somme d’une variable non corrélée si et d’un coefficient de corrélation C12 multiplié à la deuxième variable V2 :

Vi = C₁₂v₂ + Ci

Avantageusement, l’étape de simplification comporte les sous-étapes suivantes :

- Créer un vecteur de variables Vv comportant les variables Vi ;

- Créer un vecteur de variables synthétiques Vvs vide ;

- Créer un vecteur de coefficients de contribution Vc vide ;

- Réaliser au moins une fois les sous-étapes suivantes :

• Pour chaque variable Vk du vecteur de variables Vv, exprimer un coefficient de contribution Wk en fonction du coefficient directeur ak de ladite variable Vk, des coefficients directeurs ai et des coefficients de corrélation Cm des variables Vi du vecteur de variables Vv corrélées à ladite variable Vk ;

• Comparer les valeurs absolues des coefficients de contribution Wi et déterminer une variable de référence v_ref ayant le coefficient de contribution Wref de valeur absolue la plus élevée ;

• Ajouter au vecteur de variables synthétiques Vvs ladite variable de référence v_ref ;

• Ajouter au vecteur de coefficients de contribution Vc le coefficient de contribution Wref de ladite variable de référence Vref ;

• Pour chaque variable Vk du vecteur de variables Vv différente de la variable de référence v_ref et corrélée à la variable de référence Vref, exprimer ladite variable Vk corrélée en fonction de la variable de référence Vrefet normaliser la variable non corrélée Sk pour obtenir une nouvelle variable Vk’ ;

• Vider le vecteur de variables Vv et remplir le vecteur de variables Vv avec les nouvelles variables vi’ ;

- Exprimer les variables contenues dans le vecteur de variables synthétiques Vvs en fonction des variables Vi de la deuxième fonction F2 pour obtenir des variables restantes vr_P ;

- Exprimer un coefficient directeur de variable restante ar_P pour chaque variable restante vr_P à l’aide du vecteur de coefficients de contribution Vc.

Ainsi, on ne conserve que les variables Vi ayant un coefficient de contribution important en prenant en compte les corrélations entre variables.

la somme du

Avantageusement, la troisième fonction F₃ s’exprime comme coefficient d’ordonnée à l’origine b et de la somme des variables restantes vr_Pmultipliées chacune par son coefficient directeur de variable restante ar_P :

r₃ = b + £^ar_pvr_pp

Ainsi, la troisième fonction F3 dépend d’un nombre plus réduit de variables que le résultat ce qui rend plus facile le contrôle de ce résultat.

Avantageusement, le procédé selon un premier aspect de l’invention comporte une étape de synthèse des modèles de fonctionnement obtenus. Ainsi, il est possible de contrôler la cohérence des résultats du réseau de neurones.

Un deuxième aspect de l’invention concerne un procédé de contrôle des résultats fournis par un réseau de neurones artificiels caractérisé en ce qu’il comporte toutes les étapes du procédé de modélisation selon un premier aspect de l’invention et une étape additionnelle d’évaluation de la base de données d’entraînement à partir d’au moins un modèle de fonctionnement.

Ainsi, à partir du modèle de fonctionnement obtenu, il est possible de diagnostiquer une base de données d’entraînement qui n’est pas adaptée à la tâche que l’utilisateur souhaite réaliser avec le réseau de neurones.

Un troisième aspect de l’invention concerne un procédé de comparaison des performances d’un premier réseau de neurones artificiels et d’un deuxième réseau de neurones artificiels, caractérisé en ce qu’il comporte les étapes suivantes :

- Appliquer le procédé de modélisation selon un premier aspect de l’invention au premier réseau de neurones pour obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones artificiels ;

- Appliquer le procédé de modélisation selon un premier aspect de l’invention au deuxième réseau de neurones pour obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels ;

- Comparer les performances du premier réseau de neurones artificiels et du deuxième réseau de neurones artificiels en comparant chaque premier modèle de fonctionnement du premier réseau de neurones artificiels et chaque deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels correspondants à une même donnée de test.

Ainsi, en comparant le premier modèle de fonctionnement et le deuxième modèle de fonctionnement correspondant à une même donnée testée, il est possible de comparer les performances d’un premier réseau de neurones et d’un deuxième réseau de neurones pour choisir le réseau de neurones qui prend en compte les variables de la donnée testée les plus pertinentes.

Un quatrième aspect de l’invention concerne un calculateur caractérisé en ce qu’il est adapté pour mettre en œuvre le procédé de modélisation selon un premier aspect de l’invention et/ou le procédé de contrôle selon un deuxième aspect de l’invention et/ou le procédé de comparaison selon un troisième aspect de l’invention.

Un cinquième aspect de l’invention concerne un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé de modélisation selon un premier aspect de l’invention et/ou du procédé de contrôle selon un deuxième aspect de l’invention et/ou du procédé de comparaison selon un troisième aspect de l’invention.

Un sixième aspect de l’invention concerne un support d’enregistrement lisible par un ordinateur, sur lequel est enregistré le produit programme d’ordinateur selon un cinquième aspect de l’invention.

L’invention et ses différentes applications seront mieux comprises à la lecture de la description qui suit et à l’examen des figures qui l’accompagnent.

BREVE DESCRIPTION DES FIGURES

Les figures sont présentées à titre indicatif et nullement limitatif de l’invention.

- La figure 1 montre un schéma synoptique du procédé de modélisation selon un premier aspect de l’invention.

- La figure 2 montre un schéma synoptique du procédé de contrôle selon un deuxième aspect de l’invention.

- La figure 3 montre un schéma synoptique du procédé de comparaison selon un troisième aspect de l’invention.

DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION

Sauf précision contraire, un même élément apparaissant sur des figures différentes présente une référence unique.

Un premier aspect de l’invention concerne un procédé de modélisation 100 pour le contrôle des résultats fournis par un réseau de neurones artificiels.

Dans la suite de la demande, on utilisera indifféremment les termes « neurone » et « neurone artificiel ».

Un réseau de neurones comporte une pluralité de couches comportant chacune une pluralité de neurones. Par exemple, un réseau de neurones comporte entre 2 et 20 couches et chaque couche du réseau de neurones comporte entre 10 et 2000 neurones. De manière générale, chaque neurone de chaque couche est connecté à chaque neurone de la couche précédente et à chaque neurone de la couche suivante par le biais d’une synapse artificielle. Cependant, on pourrait envisager le cas où chaque neurone de chaque couche est connecté uniquement à une partie des neurones de la couche précédente et/ou à une partie des neurones de la couche suivante. Une connexion entre deux neurones est affectée d’un poids ou coefficient synaptique et chaque neurone est affecté d’un coefficient de biais. Le coefficient de biais d’un neurone est sa valeur par défaut, c’est-à-dire sa valeur quand les neurones de la couche précédente auxquels il est connecté ne lui envoient aucun signal.

L’objectif du procédé de modélisation 100 est de générer un modèle simplifié pour chaque résultat R généré par le réseau de neurones. On entend par « résultat généré par un réseau de neurones », une donnée de sortie associée à la prise de décision du réseau de neurones concernant une donnée d’entrée. Avant de pouvoir générer des résultats, le réseau de neurones est entraîné sur une base de données d’entraînement ou base de données d’apprentissage pour être adapté à une tâche prédéfinie. L’apprentissage peut être supervisé ou non supervisé. En apprentissage supervisé, l’apprentissage est contraint par la base de données d’apprentissage. En effet, la base de données d’apprentissage est annotée pour signaler au réseau de neurones les structures qu’il doit repérer. Au contraire, en apprentissage non supervisé, le réseau de neurones trouve lui-même des structures sous-jacentes à partir des données brutes de la base de données d’entraînement.

La tâche prédéfinie est par exemple de la détection, de la classification ou encore de la reconnaissance. Classifier des données consiste à les séparer en plusieurs classes, c’est-à-dire à les classer, et à identifier chacune des classes. Par exemple, dans un échantillon contenant des données noires et des données blanches, classer les données correspond à les séparer en deux classes alors que classifier les données correspond à les séparer en deux classes et à attribuer à l’une le nom de « classe noire » et à l’autre le nom de « classe blanche ». Ainsi, un réseau de neurones ayant reçu un apprentissage supervisé est capable de classifier des données alors qu’un réseau de neurones ayant reçu un apprentissage non supervisé est seulement capable de classer des données.

Le réseau de neurones est ensuite testé sur une base de données de test ou base de données de généralisation. Pour chaque donnée de test de la base de données de test, le réseau de neurones fournit alors un résultat R illustrant sa prise de décision concernant la donnée de test. Par exemple, si la tâche pour laquelle le réseau de neurones a été entraîné est de la classification et que le réseau de neurones a pris la décision que la donnée de test faisait partie de la classe C, le résultat R fourni par le réseau de neurones est la probabilité associée à la classe C.

En pratique, la base de données d’entraînement et la base de données de test peuvent être deux bases de données distinctes ou deux parties séparées d’une même base de données.

Les données utilisées dans la base de données d’entraînement et dans la base de données de test sont par exemple des données biologiques, des données relatives à la réalisation d’un procédé ou d’un produit, des images, des données audios ou encore des signaux électriques. Une donnée comporte une pluralité de variables Vi et chaque donnée utilisée comporte le même nombre de variables Vi.

Par exemple, une donnée comporte entre 10 et 10 000 variables Vi.

Les variables Vi peuvent être de type numérique, binaire, catégorique comme par exemple une nationalité ou une profession ou encore des dates. Dans le cas de données biologiques, les variables Vi sont par exemple des informations sur un patient comme son âge, ses symptômes, son poids ainsi que des informations sur le résultat d’examens qu’il a passés comme des examens sanguins ou des examens IRM. Dans le cas de données relatives à la réalisation d’un produit, les variables Vi sont par exemple des informations sur le produit comme son nom, sa composition ainsi que des informations sur son procédé de fabrication comme son temps de fabrication, le nom de la chaîne de montage sur laquelle il a été réalisé. Dans le cas de données relatives à des images, les variables Vi sont par exemple la variance et la moyenne des niveaux de gris.

Les données utilisées peuvent être des données tabulaires comportant une pluralité d’exemples, chaque exemple dépendant d’une pluralité de variables Vi. Une donnée utilisée de type tabulaire comporte par exemple entre 1000 et 1 000 000 exemples, comportant chacun entre 10 et 10 000 variables Vi.

Prenons l’exemple d’un réseau de neurones comportant L couches de N neurones, utilisé sur une donnée de test dépendant de N variables Vi.

L’expression h^^I+1) du neurone k de la couche 1+1 s’exprime en fonction des N neurones i de la couche I de la manière suivante :

(n \

Σ P_k ⁽Î⁺¹⁾ h® + b£⁺¹⁾ j i=i /

Avecf une fonction non linéaire, P^⁺¹⁾ le poids affecté à la connexion entre le neurone k de la couche 1+1 et le neurone i de la couche I, h® l’expression du neurone i de la couche I et b^¹⁺¹⁾ le coefficient de biais affecté au neurone k de la couche 1+1.

La fonction f se définit par exemple comme : f(z) = max(z, 0)

L’expression du neurone k d’une couche s’exprime donc en fonction des expressions des neurones de la couche précédente et l’expression h^¹·* du neurone k de la couche 1 s’exprime en fonction des variables vi de la donnée d’entrée de la manière suivante :

Pour un problème de classification, la probabilité p_k associée à la classe k s’exprime alors de la manière suivante :

„ _ e^Ck _avprr -yN p(L).(L-l) _h(L)

Pk ” 2f₌₁e^ci ^{avec k} - ^j^{=1 P}kj ^hj ^{+ b}k

Le résultat R correspond alors à la probabilité p_k maximale.

Le résultat R généré par un réseau de neurones est donc une fonction de l’ensemble des variables Vi de la donnée de test pour laquelle le résultat R est généré, paramétrisée par les coefficients synaptiques P_ki affectés aux connexions du réseau de neurones et par les coefficients de biais b_k affectés à chaque neurone.

Il devient donc vite très compliqué de contrôler les résultats fournis par un réseau de neurones, le nombre de variables vt des données de test pouvant aller jusqu’à 10 000. Le procédé de modélisation 100 fournit un modèle qui est une approximation du résultat R généré par un réseau de neurones par une expression simplifiée, qui est fonction d’un nombre plus restreint de variables Vi.

Le procédé de modélisation 100 selon un premier aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 1. Ces étapes sont mises en œuvre par un calculateur comportant au moins un processeur et une mémoire.

La première étape 101 du procédé de modélisation 100 est une étape de génération d’un réseau de neurones artificiels. Pour cela, le nombre de couches et le nombre de neurones par couche du réseau de neurones sont fixés ainsi que d’autres paramètres comme le pas d’apprentissage et le coefficient de régularisation, qui décrivent son processus d’apprentissage. Le pas d’apprentissage du réseau de neurones définit la fréquence à laquelle sont mis à jour les poids du réseau de neurones durant la phase d’apprentissage et le coefficient de régularisation limite le sur-apprentissage du réseau de neurones.

A la fin de cette étape 101 de génération du réseau de neurones, le réseau de neurones est prêt à être entraîné.

La deuxième étape 102 du procédé de modélisation 100 est une étape d’entraînement du réseau de neurones sur une base de données d’entraînement. A la fin de cette étape 102 d’entraînement du réseau de neurones, le réseau de neurones est apte à réaliser une tâche prédéfinie sur un certain type de données, le type des données présentes dans la base de données d’entraînement.

La troisième étape 103 du procédé de modélisation 100 est une étape de test du réseau de neurones sur au moins une donnée de test dépendant d’une pluralité de variables Vi. Les données de test sont de même type que les données de la base de données d’entraînement. Durant cette étape, le réseau de neurones génère un résultat R par donnée de test traitée, le résultat R dépendant des mêmes variables Vi que la donnée de test traitée.

La quatrième étape 104 du procédé de modélisation 100 est une étape d’approximation linéaire d’une première fonction Fi dépendant d’un résultat R généré à l’étape précédente 103.

Un résultat R est une fonction des variables Vi, fonction dont les valeurs sont comprises entre 0 et 1. Le résultat R est donc une fonction bornée. Or, une fonction linéaire n’est pas bornée. On applique donc avantageusement une transformation au résultat R pour obtenir une première fonction Fi non bornée qui sera approximée linéairement.

La première fonction Fi est par exemple définie par :

R ^F‘=^l08~

Ainsi, la première fonction Fi est non bornée et dépend des mêmes variables Vi que le résultat R.

La première fonction Fi est ainsi obtenue en appliquant au résultat R la fonction inverse de la fonction sigmoïde o se définissant comme :

= TT7Î

La fonction sigmoïde est utilisée dans la régression logistique, l’un des algorithmes d’apprentissage automatique les plus simples permettant de séparer une classe de l’ensemble des autres classes du problème. En effet, la régression logistique consiste en l’application d’une fonction sigmoïde à une expression linéaire. Ainsi, approximer la fonction Fi par une fonction linéaire L revient à approximer le résultat R par une régression logistique o(L).

La première fonction Fi est ensuite approximée linéairement, en effectuant par exemple un développement limité au premier ordre au voisinage de la donnée de test, pour obtenir une deuxième fonction F2.

La deuxième fonction F2 s’exprime alors de la manière suivante :

Avec : b un coefficient d’ordonnée à l’origine, ai un coefficient directeur et Vi les variables de la donnée de test.

Si l’approximation linéaire est réalisée en effectuant un développement limité au premier ordre au voisinage de la donnée de test, on a :

N â^^(x)x>

i=i dFi

3,=^(^χ)

Avec : X, le point de données voisin de la donnée de test auquel est réalisé le développement limité.

Il suffit alors de calculer les gradients de la première fonction Fi par rapport aux variables Vi de la donnée de test pour obtenir la deuxième fonction F2.

La cinquième étape 105 du procédé de modélisation 100 selon un premier aspect de l’invention est une étape de simplification de la deuxième fonction F2.

L’étape 105 de simplification comporte une première phase consistant à classer les variables Vi en éliminant les corrélations entre les variables Vi.

Initialement, les variables Vi sont normalisées. Par exemple, toutes les variables Vi ont une moyenne nulle et un écart type de 1.

Un coefficient de contribution Wiest calculée pour chaque variable Vi de la donnée de test. Le coefficient de contribution Wk de la variable k s’exprime de la manière suivante :

k-1 N

W_k ^— ^ak T C_kjaj + ' C_kjaj j=i j=k+i

Avec a_k le coefficient directeur de la variable k dans la deuxième fonction F2, aj le coefficient directeur de la variable j dans la deuxième fonction F2 et C_kj le coefficient de corrélation entre la variable k et la variable j.

La variable Vi avec le coefficient de contribution Wi ayant la valeur absolue la plus élevée est désignée comme variable de référence Vret. Chaque variable Vi différente de la variable de référence Vret est alors exprimée en fonction de la valeur de référence v_ret de la manière suivante :

Vj — Cj_refV_ref + £j

Avec £j une variable non corrélée à la variable v_ret et C_iref le coefficient de corrélation entre la variable i et la variable de référence v_ret.

£j est ensuite normalisé pour obtenir une nouvelle variable Vi’ :

Les nouvelles variables vf ainsi obtenues sont comparables car de même moyenne et de même écart-type.

Le coefficient directeur ai de chaque variable Vi’ est alors exprimé de la manière suivante :

^a'i = J¹ - ^Ciref^ai

Les mêmes étapes sont alors appliquées aux nouvelles variables Vi’, c’est-à-dire qu’un coefficient de contribution Wi’ dépendant des coefficients directeurs ai’ et des coefficients de corrélation entre les nouvelles variables Cij’ est calculé pour chaque nouvelle variable vf, une nouvelle valeur de référence v_ret’ est sélectionnée et de nouvelles variables Vi” sont obtenues et ainsi de suite sur plusieurs itérations.

Le nombre d’itérations est prédéfini. Le nombre d’itérations est strictement inférieur au nombre de variables Vide la deuxième fonction F2 et supérieur ou égal à 1. La pertinence de la valeur choisie pour le nombre d’itérations pourra être contrôlée en comparant la fonction linéaire obtenue pour ce nombre d’itérations et la fonction linéaire obtenue pour un nombre d’itérations supérieur, à l’aide d’une mesure de proximité, par exemple le rapport des normes des vecteurs de coefficients directeurs des fonctions linéaires obtenues.

La valeur de référence obtenue à chaque itération est une variable synthétique, les variables synthétiques étant indépendantes les unes des autres.

Ainsi, si p itérations sont réalisées, p variables synthétiques sont obtenues et au bout de ces p itérations, les coefficients de contribution de toutes les autres variables sont mis à zéro.

Par exemple, si la deuxième fonction F2 dépend de 5 variables vi, V2, V3, V4 et vs, et que le nombre d’itérations choisi est trois, la première phase de l’étape 105 de simplification consiste, dans un premier temps, à calculer le coefficient de corrélation de chaque variable W-ι, W2, W3, W4 et Ws. Par exemple, W3 vaut :

W₃ = a₃ + C₃₁a·!^ + C₃₂a₂ + C₃₄a₄ + C₃₅a₅

Les valeurs absolues des coefficients de corrélation W-ι, W2, W3, W4 et Ws sont comparées entre elles et la variable ayant le coefficient de corrélation de valeur absolue la plus élevée est sélectionnée comme valeur de référence. Par exemple, vi est sélectionnée comme valeur de référence.

Les variables restantes V2, V3, V4 et vs sont alors exprimées en fonction de la variable de référence vi. Par exemple, V2 vaut :

V₂ = C₂₁v₁ + ε₂

A partir de ces expressions, de nouvelles variables V2’, V3’, V4’ et vs’ sont calculées.

Par exemple, V2’ vaut :

, ^£2 ^V2 = y λ/1 “ C₂₁

A l’issue de ces calculs, la première itération est terminée et l’on applique les mêmes étapes que précédemment aux nouvelles variables V2’, vs’, V4 et vs’. Par exemple, V2’ est sélectionnée comme variable de référence, vs’, V4’ et vs’ sont alors exprimées en fonction de V2’. Par exemple, vs’ vaut :

v₃' = 03₂ν₂' + ε₃'

Puis, de nouvelles variables vs”, V4” et vs” sont calculées. Par exemple, vs” vaut :

A l’issue de ces calculs, la deuxième itération est terminée.

Pendant la troisième et dernière itération, une variable de référence est sélectionnée parmi les nouvelles variables vs”, V4” et vs” comme précédemment. Par exemple, vs” est sélectionnée comme variable de référence. Puis, les coefficients de contribution des variables restantes V4” et vs” sont mis à zéro.

A la fin de la première phase de l’étape 105 de simplification, trois variables synthétiques vi, V2’ et vs” sont obtenues.

Les variables synthétiques ainsi exprimées ne correspondent pas aux variables v, de la donnée de test. Pour pouvoir contrôler le résultat R du réseau de neurones, il faudrait que le résultat R dépende des variables Vi de la donnée de test.

Dans une deuxième phase de l’étape 105 de simplification, les variables synthétiques sont donc exprimées en fonction des variables Vi de la donnée de test en utilisant la formule suivante jusqu’à ce que leur expression ne dépende plus que des variables Vi de la deuxième fonction F2 :

_v.^(1_1) _ c.o-V¹-¹) _νω ₌ ) 9 ¹ i -i (1-1)2 J 9

Avec v® la variable j à l’itération 1+1, νθ^_1) la variable j à l’itération I, Vj^(1_1)la variable de référence à l’itération I correspondant initialement à la variable i et ci·^1-1·* le coefficient de corrélation entre la variable i et la variable j à l’itération I.

En reprenant l’exemple précédent de la deuxième fonction F2 dépendant de 5 variables, la valeur de référence de la première itération est la variable vi et la valeur de référence de la deuxième itération est la variable V2’, donc la valeur de référence de la deuxième itération s’exprime comme :

, v₂ - C₁₂Vi v₂ = _i2 ²

La valeur de référence de la troisième itération est la variable vs”, qui s’exprime donc comme :

„ _ ^V3^Z C23^/V2^/V₃ — /2

Avec , v₃ - C^Vi v₃ =

13²

Les variables Vi de la donnée de test dont dépendent les variables synthétiques sont des variables restantes vr_P. Le nombre de variables restantes vr_P est strictement inférieur au nombre de variables Vide la donnée de test.

La troisième fonction Fs s’exprime alors ainsi :

r₃ = b + 2^ar_pvr_p p

Avec ar_p un coefficient directeur de variable restante.

Pour calculer les coefficients directeurs de variable restante ar_P, les variables synthétiques sont parcourues en ordre inverse de la derniere selectionnee a la première sélectionnée. Ainsi, si l’on a p itérations, à l’étape p - k + 1 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la k-ème variable synthétique sélectionnée à la k-ème itération de la première phase de l’étape 105 de simplification est mis à jour suivant :

P _r(p-k+2) (p-k+l) _ (p-k+2) _ y ___kj________ (p-k+2) a_k - a_k / -------------aj tandis que les coefficients directeurs des variables sélectionnées après la k-ème variable synthétique, c’est-à-dire les variables synthétiques sélectionnées après la k-ème itération, sont mis à jour suivant :

(p-k+l) _______1_______ (p-k+2) ^j L _ _r(p-k+2)₂ ^j

J M

En reprenant l’exemple précédent de la deuxième fonction F2 dépendant de 5 variables, les variables synthétiques sont vi, V2’ et V3”.

A l’étape 1 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la troisième variable synthétique V3” est mis à jour suivant :

a'₃ = a'₃'

Les autres variables synthétiques ayant été sélectionnées avant la troisième variable synthétique, leurs coefficients directeurs ne sont pas mis à jour à cette étape.

A l’étape 2 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la deuxième variable synthétique V2’ est mis à jour suivant :

Le coefficient directeur de la troisième variable synthétique V3” sélectionnée après la deuxième variable synthétique V2’ est mis à jour suivant :

a 3 = a 3

A l’étape 3 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la première variable synthétique vi est mis à jour suivant :

_ C₁₂ C₁₃ ar-ι — a! a₂ , a₃ λ/1 ^— C₁₂ λ/l ^— ^13

Les coefficients directeurs des deuxième et troisième variable synthétique V2’ et v₃” sélectionnée après la première variable synthétique vi sont mis à jour suivant : 1 _ar — -a_? a/1-C₁₂ ² ar₃ = . a₃

A l’issue de l’étape 105 de simplification, la troisième fonction F₃ dépend donc uniquement des variables restantes vr_P, c’est-à-dire d’un nombre réduit de variables Vi de la donnée de test.

L’étape 106 du procédé de modélisation 100 selon un premier aspect de l’invention consiste à appliquer la fonction inverse de la première fonction Fi à la troisième fonction F₃ pour obtenir un modèle de fonctionnement du réseau de neurones pour le résultat R. Le modèle de fonctionnement du réseau de neurones est un résultat R simplifié, dépendant d’un nombre réduit de variables Vi facilitant le contrôle du résultat R fourni par le réseau de neurones.

Le procédé de modélisation 100 selon un premier aspect de l’invention génère un modèle de fonctionnement pour chaque résultat R. Si plusieurs résultats R ont été générés par le réseau de neurones, le procédé de modélisation 100 peut par exemple comporter une étape additionnelle de synthèse des modèles de fonctionnement. Les données de test étant similaires, l’étape de synthèse peut permettre de contrôler la cohérence des résultats du réseau de neurones.

Un deuxième aspect de l’invention concerne un procédé de contrôle 200 pour contrôler les résultats fournis par un réseau de neurones artificiels.

Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 2.

Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention permettant d’obtenir au moins un modèle de fonctionnement du réseau de neurones.

Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte ensuite une étape 201 d’évaluation de la base de données d’entraînement consistant à comparer le nombre restreint de variables Vi dont dépend chaque modèle de fonctionnement avec un certain nombre de variables Vi pertinentes.

Par exemple, dans le cas de la détection de personnes dans une image, seuls les pixels de l’image sur lesquels se trouvent les personnes sont pertinents. Si les variables Vi sont par exemple la moyenne et la variance de chaque pixel de l’image, les variables Vi pertinentes sont donc la moyenne et la variance des pixels sur lesquels se trouvent les personnes. Si le modèle de fonctionnement dépend majoritairement de variables Vi liées à des pixels ne correspondant pas à une personne dans l’image mais à des pixels du fond, cela signifie que les variables Vi prises en compte dans la prise de décision du réseau de neurones sont erronées, et donc que l’apprentissage n’a pas permis au réseau de neurones de devenir performant pour la tâche escomptée. Ceci est une indication que la base de données d’entraînement n’est pas adaptée à la détection de personnes. Les variables Vi non pertinentes prises en compte par le réseau de neurones donnent alors des pistes permettant de comprendre pourquoi la base de données d’entraînement n’est pas adaptée et ainsi d’y remédier. Dans cet exemple, le fait que le réseau de neurones prenne en compte des pixels du fond peut être dû à une trop grande homogénéité des fonds derrière les personnes. Une solution est donc d’ajouter à la base de données d’entraînement des images avec des fonds plus variés.

Au contraire, si le modèle de fonctionnement dépend majoritairement de variables Vi pertinentes, cela signifie que la base de données d’entraînement est bien adaptée pour la tâche escomptée.

Un troisième aspect de l’invention concerne un procédé de comparaison 300 pour comparer les performances de deux réseaux de neurones artificiels. Les deux réseaux de neurones peuvent, pour une donnée de test donnée, avoir des résultats similaires, par exemple, dans le cas où l’on veut prédire la maladie d’un patient à partir de symptômes, les deux réseaux de neurones donnent en sortie la même maladie avec une même probabilité de certitude, ou des résultats différents, par exemple, les deux réseaux de neurones ne donnent pas la même maladie en sortie. Pour deux réseaux de neurones ayant des performances similaires, cela peut alors permettre de choisir un réseau de neurone préféré, qui utilise des variables plus pertinentes dans sa prise de décision. Pour deux réseaux de neurones ayant des performances différentes, cela peut par exemple permettre de comprendre pourquoi l’un des réseaux de neurones est défaillant.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 3.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention pour un premier réseau de neurones permettant d’obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones et toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention pour un deuxième réseau de neurones permettant d’obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte ensuite une étape 301 de comparaison des performances du premier réseau de neurones et du deuxième réseau de neurones en comparant pour une même donnée de test, le premier modèle de fonctionnement du premier réseau de neurones artificiels et le deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels. Plus précisément, l’étape 301 de comparaison consiste à comparer les variables Vi dont dépend le premier modèle de fonctionnement et les variables Vi dont dépend le deuxième modèle de fonctionnement. Les variables Vi prises en compte dans un des deux modèles de fonctionnement et pas dans l’autre modèle de fonctionnement sont alors comparées avec un certain nombre de variables Vi pertinentes. Ainsi, le réseau de neurones utilisant le moins de variables Vi non pertinentes dans sa prise de décision est considéré comme le plus performant.

Par exemple, dans le cas où l’on veut prédire la maladie d’un patient à partir de ses symptômes, le premier modèle de fonctionnement prend en compte la fièvre, la fatigue et les courbatures alors que le deuxième modèle de fonctionnement prend en compte la fièvre, la fatigue et la douleur à l’oreille pour diagnostiquer la grippe. Les variables Vi prises en compte dans un des deux modèles de fonctionnement et pas dans l’autre modèle de fonctionnement sont les courbatures pour le premier modèle de fonctionnement et la douleur à l’oreille pour le deuxième modèle de fonctionnement. Les variables Vi pertinentes sont les symptômes couramment observés chez un patient atteint de la grippe. Les courbatures font donc partie des variables Vi pertinentes ce qui n’est pas le cas de la douleur à l’oreille. Le réseau de neurones le plus performant pour réaliser cette tâche est donc le premier réseau de neurones.

Le procédé de contrôle 200 et le procédé de comparaison 300 sont compatibles, c’est-à-dire que le procédé de comparaison 300 peut comporter l’étape 201 d’évaluation de la base de données d’entraînement.

L’étape 201 d’évaluation de la base de données d’entraînement du procédé de contrôle 200 et l’étape 301 de comparaison des performances des deux réseaux 5 de neurones peuvent être mises en œuvre par un calculateur ou réalisées manuellement.

Claims

REVENDICATIONS

1. Procédé de modélisation (100) pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes mises en œuvre par un calculateur :

- Générer un réseau de neurones artificiels (101) ;

- Entraîner le réseau de neurones artificiels sur une base de données d’entraînement (102) ;

- Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d’une pluralité de variables Vi de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables v, (103) ;

- Pour chaque résultat R :

• Approximer par un modèle linéaire une première fonction Fi dépendant uniquement du résultat R pour obtenir une deuxième fonction F2, la première fonction F1 et la deuxième fonction F2 dépendant des variables Vi (104) ;

• Simplifier la deuxième fonction F2 pour obtenir une troisième fonction F3 dépendant d’un nombre plus réduit de variables Vi (105);

• Appliquer à la troisième fonction F3 la fonction inverse de la première fonction F1 pour obtenir un modèle de fonctionnement du réseau de neurones (106).
2. Procédé de modélisation (100) selon la revendication 1, caractérisé en ce que la deuxième fonction F2 s’exprime comme la somme d’un coefficient d’ordonnée à l’origine b et de la somme des variables Vi multipliées chacune par un coefficient directeur ai :

i
3. Procédé de modélisation (100) selon l’une quelconque des revendications précédentes, caractérisé en ce qu’une première variable vi corrélée à une deuxième variable V2 s’exprime en fonction de la deuxième variable V2 comme la somme d’une variable non corrélée ει et d’un coefficient de corrélation C12 multiplié à la deuxième variable V2 :

vi = C₁₂v₂ + Ci
4. Procédé de modélisation (100) selon la revendication 2 et la revendication 3, caractérisé en ce que l’étape de simplification (105) comporte les sousétapes suivantes :

- Créer un vecteur de variables Vv comportant les variables Vi ;

- Créer un vecteur de variables synthétiques Vvs vide ;

- Créer un vecteur de coefficients de contribution Ve vide ;

- Réaliser au moins une fois les sous-étapes suivantes :

• Pour chaque variable Vk du vecteur de variables Vv, exprimer un coefficient de contribution Wk en fonction du coefficient directeur ak de ladite variable Vk, des coefficients directeurs ai et des coefficients de corrélation Cm des variables Vi du vecteur de variables Vv corrélées à ladite variable Vk ;

• Comparer les valeurs absolues des coefficients de contribution Wi et déterminer une variable de référence v_ref ayant le coefficient de contribution Wret de valeur absolue la plus élevée ;

• Ajouter au vecteur de variables synthétiques Vvs ladite variable de référence Vret ;

• Ajouter au vecteur de coefficients de contribution Vc le coefficient de contribution W_ref de ladite variable de référence v_ref ;

• Pour chaque variable Vk du vecteur de variables Vv différente de la variable de référence v_ref et corrélée à la variable de référence Vref, exprimer ladite variable Vk corrélée en fonction de la variable de référence Vrefet normaliser la variable non corrélée Sk pour obtenir une nouvelle variable Vk’ ;

• Vider le vecteur de variables Vv et remplir le vecteur de variables Vv avec les nouvelles variables vf ;

- Exprimer les variables contenues dans le vecteur de variables synthétiques Vvs en fonction des variables Vi de la deuxième fonction F2 pour obtenir des variables restantes vr_P ;

- Exprimer un coefficient directeur de variable restante ar_P pour chaque variable restante vr_Pà l’aide du vecteur de coefficients de contribution Vc.
5. Procédé de modélisation selon la revendication 4, caractérisé en ce que la troisième fonction F3 s’exprime comme la somme du coefficient d’ordonnée à l’origine b et de la somme des variables restantes vr_P multipliées chacune par son coefficient directeur de variable restante ar_P :

F₃ = b + 2^ ar_pvr_p p
6. Procédé de contrôle (200) des résultats fournis par un réseau de neurones artificiels caractérisé en ce qu’il comporte toutes les étapes du procédé de modélisation selon l’une quelconque des revendications précédentes et une étape (201) additionnelle d’évaluation de la base de données d’entraînement à partir d’au moins un modèle de fonctionnement.
7. Procédé de comparaison (300) des performances d’un premier réseau de neurones artificiels et d’un deuxième réseau de neurones artificiels, caractérisé en ce qu’il comporte les étapes suivantes :

- Appliquer le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 au premier réseau de neurones artificiels pour obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones artificiels ;

- Appliquer le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 au deuxième réseau de neurones artificiels pour obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels ;

- Comparer les performances du premier réseau de neurones artificiels et du deuxième réseau de neurones artificiels en comparant chaque premier modèle de fonctionnement du premier réseau de neurones artificiels et chaque deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels correspondants à une même donnée de test (301).
8. Calculateur caractérisé en ce qu’il est adapté pour mettre en œuvre le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 et/ou le procédé de contrôle (200) selon la revendication 6 et/ou le procédé de comparaison (300) selon la revendication 7.
9. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 et/ou du procédé de contrôle (200) selon la revendication 6 et/ou du procédé de comparaison (300) selon la revendication 7.
10. Support d’enregistrement lisible par un ordinateur, sur lequel est enregistré le produit programme d’ordinateur selon la revendication 9.