WO2023111345A1

WO2023111345A1 - Procédé d'analyse d'une donnée numérique

Info

Publication number: WO2023111345A1
Application number: PCT/EP2022/086526
Authority: WO
Inventors: Claude Berrou; Salim Graja
Original assignee: Oso-Ai
Priority date: 2021-12-19
Filing date: 2022-12-18
Publication date: 2023-06-22
Also published as: FR3131039A1

Abstract

L'invention est un procédé d'analyse d'une donnée mesurée par un détecteur par un algorithme d'analyse comportant au moins un réseau de neurones de type perceptron multicouches. Le réseau de neurones comporte au moins deux couches successives, formant une couche amont et une couche aval, dont les nœuds respectifs sont connectés par une matrice de connexion creuse, dont au moins 50 % des termes sont nuls ou de valeur négligeable. Les nœuds de la couche aval sont segmentés en groupes. Dans chaque groupe, une sélection de nœuds activés est établie en fonction de signaux de connexion reliant les nœuds de la couche amont aux nœuds du groupe.

Description

Titre : Procédé d'analyse d'une donnée numérique

DOMAINE TECHNIQUE

L'invention concerne un traitement de données à l'aide d'un réseau de neurones, comportant un perceptron multicouches, présentant une architecture particulière.

ART ANTERIEUR

Le recours à des réseaux de neurones pour l'analyse de motifs numériques divers, de type images, sons, vidéos est usuel.

Certains algorithmes de traitement mettent en œuvre plusieurs réseaux de neurones, alimentés par des données communes, et fonctionnant en parallèle. Il est recherché que les réseaux de neurones fonctionnant en parallèle soient dissemblables, par exemple en utilisant un nombre de couches différentes, ou un nombre de nœuds par couches différents. Lorsqu'on met en œuvre des réseaux de neurones convolutifs, comportant des couches de convolution destinées à appliquer des filtres convolutifs, chaque réseau de neurones fonctionnant en parallèle peut mettre en œuvre des filtres différents.

L'invention décrite ci-après adresse la question de la diversité de réseaux de neurones, et notamment de réseaux de neurones fonctionnant en parallèle. Elle permet d'obtenir une diversité tout en étant simple à mettre en œuvre.

EXPOSE DE L'INVENTION

Un premier objet de l'invention est un procédé d'analyse d'une donnée numérique, prenant la forme d'un vecteur ou d'une matrice, la donnée numérique résultant d'une mesure effectuée par un détecteur, et formant une donnée d'entrée d'un réseau de neurones, le réseau de neurones comportant plusieurs réseaux de neurones élémentaires, chaque réseau de neurones élémentaire comprenant un perceptron multicouches s'étendant entre :

- une première couche ;

- une couche de sortie, la couche de sortie comportant un résultat d'analyse élémentaire, par le réseau de neurones élémentaire, de la donnée numérique ; chaque perceptron multicouches étant tel que :

- à chaque couche est assigné un rang, le rang d'une couche étant d'autant plus élevé que la couche est proche de la couche de sortie ;

- au moins deux couches de rangs successifs, formant une couche amont et une couche aval, comportent des nœuds, des nœuds des deux couches étant connectés, chaque nœud de la couche amont adressant un signal de connexion à au moins un nœud de la couche aval auquel il est connecté, la connexion des nœuds des couches amont et aval étant définie par une matrice de connexion, chaque terme de la matrice de connexion étant associé à un nœud de la couche amont et un nœud de la couche aval, et quantifiant une contribution du nœud de la couche amont pour le nœud de la couche aval ; le procédé comportant les étapes suivantes :

- a) utilisation de la donnée d'entrée pour alimenter la première couche du perceptron multicouches de chaque réseau de neurones élémentaire;

- b) mise en œuvre de chaque réseau de neurones élémentaires pour obtenir un résultat d'analyse élémentaire par la couche de sortie du perceptron multicouches de chaque réseau de neurones élémentaire; le procédé étant caractérisé en ce que :

- au moins une matrice de connexion du perceptron multicouches de chaque réseau de neurones élémentaire est une matrice creuse, comportant au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de la matrice ;

- le perceptron multicouches de chaque réseau de neurones élémentaire comporte respectivement, entre deux couches successives de mêmes rangs respectifs, des matrices de connexion creuses différentes.

Selon un mode de réalisation, chaque réseau de neurones élémentaire comporte un bloc d'extraction programmé pour extraire des caractéristiques de la donnée d'entrée, les caractéristiques ainsi extraites formant la première couche du perceptron multicouches dudit réseau de neurones élémentaire. Le bloc d'extraction peut comporter différentes couches de convolution successives, chaque couche de convolution résultant de l'application d'un filtre de convolution à la couche de convolution précédente.

De préférence, chaque perceptron multicouches comporte un même nombre de couches et un même nombre de nœuds par couche.

Chaque perceptron multicouches peut comporter au moins une couche intermédiaire, entre la première couche et la couche de sortie. Deux couches successives d'au moins un perceptron multicouches peuvent être telles que :

- les nœuds de la couche aval sont segmentés en différents groupes.

Le procédé est alors tel l'étape b) comporte, pour le perceptron multicouches, les sous-étapes suivantes :

- b-i) à partir des signaux de connexion résultant des nœuds de la couche amont, connectés à un même groupe de la couche aval, sélection de nœuds, appartenant audit groupe, au moins un nœud dudit groupe n'étant pas sélectionné ;

- b-ii) activation des nœuds sélectionnés, au moins un nœud du groupe n'étant pas activé. Selon une possibilité,

- au moins un perceptron multicouches comporte plusieurs paires comportant deux couches successives, chaque paire comportant une couche amont et une couche aval, une matrice de connexion étant définie entre la couche amont et la couche aval ;

- chaque matrice de connexion comporte au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de ladite matrice ;

- les sous-étapes b-i) et b-ii) sont mises en œuvre pour chaque paire de couches.

La sous-étape b-i) peut comporter, pour chaque groupe d'une couche aval d'au moins un perceptron multicouches:

- calcul d'un signal d'activation pour chaque nœud du groupe, en fonction de signaux de connexion émis, vers ledit nœud, par chaque nœud de la couche amont connecté audit nœud;

- normalisation des signaux d'activation calculés pour chaque nœud du groupe de façon que les signaux normalisés sont compris entre une valeur minimale et une valeur maximale prédéterminées ;

- sélection des nœuds du groupe en fonction des signaux d'activation normalisés.

La sous-étape b-i) peut comporter :

- prise en compte d'une fonction de sélection, la fonction de sélection étant une fonction croissante ou strictement croissante ;

- application de la fonction de sélection à chaque signal d'activation normalisé, de façon à calculer pour chaque signal d'activation normalisé, un signal de comparaison ;

- sélection des nœuds du groupe en fonction du signal de comparaison calculé pour chaque nœud.

La fonction de sélection peut comporter une fonction sigmoïde ou linéaire par morceaux. Selon un mode de réalisation, au moins une ou chaque matrice de connexion d'un perceptron multicouches comporte au moins 90% ou au moins 95% de termes nuis ou au moins inférieurs à au moins un autre terme de ladite matrice.

Selon un mode de réalisation, pour au moins un perceptron multicouches, chaque signal de connexion entre deux nœuds de deux couches successives est positif.

Selon un mode de réalisation, le procédé comporte une étape c) de combinaison des résultats d'analyse élémentaires, résultant de chaque réseau de neurones élémentaire, pour former un résultat d'analyse.

Selon un mode de réalisation, le procédé comporte, préalablement à l'étape a),

- mesure d'une grandeur physique par un détecteur;

- formation, par le détecteur, d'un signal d'entrée à partir de la grandeur physique mesurée ;

- formation de la donnée d'entrée à partir du signal d'entrée.

Le résultat d'analyse peut être une caractérisation de la grandeur physique mesurée.

Le procédé peut comporter, préalablement à l'étape a) :

- prise en compte d'une donnée mémorisée dans une base de données, la donnée mémorisée formant le signal d'entrée ;

- formation de la donnée d'entrée à l'aide du signal d'entrée ;

Le résultat d'analyse peut alors être une caractérisation de la donnée mémorisée.

Un deuxième objet de l'invention est un système de mesure, comportant :

- un détecteur, configuré pour mesurer une grandeur physique et pour établir un signal d'entrée à partir de la grandeur physique mesurée ;

- une unité de traitement, programmée pour mettre en œuvre le procédé selon le premier objet de l'invention.

Le détecteur peut être un capteur d'image ou un capteur de son ou un capteur magnétique.

Un troisième objet de l'invention est un support de données, lisible par un ordinateur, ou configuré pour être connecté à un ordinateur, ou circuit intégré, comportant des instructions pour mettre en œuvre le procédé selon le premier objet de l'invention, notamment à partir d'une donnée mesurée.

Un quatrième objet de l'invention est un programme d'ordinateur comportant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent à la mise en œuvre d'un réseau de neurones, configuré pour analyser une donnée d'entrée, le réseau de neurones comportant plusieurs réseaux de neurones élémentaires, chaque réseau de neurones élémentaire comprenant un perceptron multicouches s'étendant entre :

- une première couche;

- à chaque couche est assigné un rang, le rang d'une couche étant d'autant plus élevé que la couche est proche de la couche de sortie;

- au moins deux couches de rangs successifs, formant une couche amont et une couche aval, comportent des nœuds, des nœuds des deux couches étant connectés, chaque nœud de la couche amont adressant un signal de connexion à au moins un nœud de la couche aval auquel il est connecté, la connexion des nœuds des couches amont et aval étant définie par une matrice de connexion, chaque terme de la matrice de connexion étant associé à un nœud de la couche amont et un nœud de la couche aval, et quantifiant une contribution du noeud de la couche amont pour le nœud de la couche aval ; le programme étant caractérisé en ce que :

- au moins une matrice de connexion de chaque perceptron multicouches est une matrice creuse, comportant au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de la matrice ;

- les perceptrons multicouches comportent respectivement, entre deux couches successives de mêmes rangs respectifs, des matrices de connexion creuses différentes.

Le programme d'ordinateur peut comporter l'une des caractéristiques suivantes, prises isolément ou selon les combinaisons techniquement réalisables :

- chaque perceptron multicouches comporte moins une couche intermédiaire, entre la couche d'entrée et la couche de sortie ;

- chaque perceptron multicouches comporte plusieurs paires comportant deux couches successives, chaque paire comportant une couche amont et une couche aval, une matrice de connexion étant définie entre la couche amont et la couche aval ;

- chaque matrice de connexion comporte au moins 50% ou au moins 80% de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de ladite matrice.

Le programme d'ordinateur peut comporter des instructions pour combiner des résultats d'analyse résultant de chaque réseau de neurones élémentaire. Un cinquième objet de l'invention est un support de données lisible ou par ordinateur, ou pouvant être connecté à un ordinateur, ou un circuit imprimé, dans lequel est enregistré le programme d'ordinateur selon le quatrième objet de l'invention.

Un sixième objet de l'invention est un procédé d'annotation de données, utilisant un programme selon le quatrième objet de l'invention, le programme comportant un premier réseau de neurones élémentaire et un deuxième réseau de neurones élémentaire, les premier et deuxième réseaux de neurones élémentaires comportant respectivement un même nombre de couches, et un même nombre de nœuds par couche, le procédé comportant les étapes suivantes :

- i) prise en compte de premières données d'entrée annotées et de premières données d'entrée non annotées ;

- ii) prise en compte de deuxièmes données d'entrée annotées, différentes des premières données d'entrée annotées, et de deuxièmes données non annotées ;

- iii) apprentissage :

• du premier réseau de neurones élémentaire à l'aide des premières données d'entrée annotées ;

• et du deuxième réseau de neurones élémentaire à l'aide des deuxièmes données d'entrée annotées;

- iv) utilisation

• du premier réseau de neurones élémentaire pour : annoter les premières données non annotées, de façon à former des premières données pseudo-annotées ; ou mettre à jour une annotation de premières données pseudo-annotées résultant d'une itération précédente ;

• du deuxième réseau de neurones élémentaire pour : annoter les deuxièmes données non annotées, de façon à former des deuxièmes données pseudo-annotées ; ou mettre à jour une annotation de deuxièmes données pseudo-annotées résultant d'une itération précédente ;

- v) mise à jour de l'apprentissage :

• du premier réseau de neurones élémentaire à l'aide des premières données d'entrée annotées et des deuxièmes données d'entrée pseudo-annotées lors de l'étape iv) ; • du deuxième réseau de neurones élémentaire à l'aide des deuxièmes données d'entrée annotées et des premières données d'entrée pseudo-annotées lors de l'étape iv);

- vi) réitération des étapes iv) à v), jusqu'à l'atteinte d'un critère d'arrêt d'itérations, de telle sorte que suite aux itérations, les annotations des premières données d'entrée pseudo-annotées et les deuxièmes données d'entrée pseudo-annotées sont considérées comme stabilisées.

Les premières données annotées et non annotées, de même que les deuxièmes données annotées et non annotées, peuvent être des données mesurées par un détecteur. Le détecteur peut être un capteur d'image ou un capteur de son ou , de façon plus générale, un capteur d'une grandeur physique.

Selon un mode de réalisation,

- lors de l'étape i), le nombre de premières données d'entrée non annotées est supérieur au nombre de premières données d'entrée annotées ;

- lors de l'étape ii), le nombre de deuxièmes données d'entrée non annotées est supérieur au nombre de deuxièmes données d'entrée annotées.

Le programme d'ordinateur peut comporter plusieurs premiers réseaux de neurones élémentaires, chaque premier réseau de neurones élémentaire comportant

• un même nombre de couches, et un même nombre de nœuds par couche ;

• parmi les couches, deux couches de rangs successifs, formant respectivement une couche amont et une couche aval, la matrice de connexion entre la couche amont et la couche aval comportant au moins 50% ou au moins 80% de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de la matrice, les matrices de connexion entre lesdites couches étant différentes dans chaque premier réseau de neurones.

L'étape iii) peut comporter un apprentissage de chaque premier réseau de neurones élémentaire à l'aide des premières données d'entrée annotées.

L'étape iv) peut comporter

• iv-1) une utilisation de chaque premier réseau de neurones élémentaire pour annoter indépendamment les premières données non annotées ou mettre à jour indépendamment une annotation des premières données pseudo-annotées résultant d'une itération précédente ; • iv-2) pour chaque première donnée pseudo-annotée, une combinaison des annotations résultant de la sous-étape iv-1) pour définir une seule annotation pour ladite première donnée ;

L'étape v) peut comporter une mise à jour de l'apprentissage de chaque premier réseau de neurones élémentaire à l'aide des premières données d'entrée annotées et des deuxièmes données d'entrée pseudo-annotées lors de l'étape iv).

Le programme d'ordinateur peut comporter plusieurs deuxièmes réseaux de neurones élémentaires, chaque deuxième réseau de neurones élémentaire comportant

• un même nombre de couches, et un même nombre de nœuds par couche ;

• parmi les couches, deux couches de rangs successifs, formant respectivement une couche amont et une couche aval, la matrice de connexion entre la couche amont et la couche aval comportant au moins 50% ou au moins 80% de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme, les matrices de connexion entre lesdites couches étant différentes dans chaque deuxième réseau de neurones élémentaire.

L'étape iii) peut comporter un apprentissage de chaque deuxième réseau de neurones élémentaire à l'aide des deuxièmes données d'entrée annotées.

L'étape iii) peut comporter :

• iv-1) une utilisation de chaque deuxième réseau de neurones élémentaire pour annoter indépendamment les deuxièmes données annotées ou mettre à jour indépendamment une annotation des deuxièmes données pseudo-annotées résultant d'une itération précédente ;

• iv-2) pour chaque deuxième donnée pseudo-annotée, combinaison des annotations résultant de la sous-étape v-1) pour définir une seule annotation.

L'étape v) peut comporter une mise à jour de l'apprentissage de chaque deuxième réseau de neurones élémentaire à l'aide des deuxièmes données d'entrée annotées et des premières données d'entrée pseudo-annotées lors de l'étape iv).

L'invention sera mieux comprise à la lecture de l'exposé des exemples de réalisation présentés, dans la suite de la description, en lien avec les figures listées ci-dessous.

FIGURES

La figure 1 schématise les principaux éléments permettant une mise en œuvre de l'invention

La figure 2A représente une architecture d'un algorithme d'analyse mettant en œuvre l'invention. L'algorithme d'analyse est basé sur plusieurs réseaux de neurones élémentaires. La figure 2B schématise un bloc d'extraction mis en œuvre chaque réseau de neurones élémentaire.

La figure 2C schématise un perceptron multicouches de chaque réseau de neurones élémentaire.

La figure 3A montre les principales étapes du fonctionnement d'un réseau de neurones tel que décrit en lien avec la figure 2C.

La figure 3B détaille les étapes de sélection d'un ou de plusieurs nœuds dans un groupe de nœuds d'une couche d'un réseau de neurones élémentaire décrit en lien avec la figure 2C.

La figure 3C est un détail d'un groupe, ou cluster, de nœuds représenté sur la figure 2C.

La figure 3D et la figure 3E illustrent des exemples de fonctions de sélection.

La figure 4A montre une mise en parallèle d'un premier réseau de neurones et d'un deuxième réseau de neurones pouvant être utilisé à des fins d'apprentissage partiellement supervisé.

La figure 4B montre les principales étapes de l'apprentissage partiellement supervisé mettant en œuvre l'architecture décrite en lien avec la figure 4A.

La figure 5 schématise une variante de la mise en parallèle du premier de réseau de neurones et du deuxième réseau de neurones, décrit en lien avec la figure 4A. Selon cette variante, le premier réseau de neurones et le deuxième réseau de neurones sont subdivisés en plusieurs réseaux de neurones élémentaires fonctionnant en parallèle.

EXPOSE DE MODES DE REALISATION PARTICULIERS

La figure 1 représente un exemple de système mettant en œuvre l'invention. Le système 1 comporte un détecteur 10, configuré pour détecter une grandeur physique 11. Dans cet exemple, et de façon non limitative, le détecteur 10 est un capteur d'image, la grandeur physique étant une onde électromagnétique. Le détecteur peut être un capteur acoustique, la grandeur physique étant une onde acoustique. Le détecteur peut être capteur magnétique ou un capteur électrique. D'une façon générale, le détecteur forme un signal d'entrée S représentatif de la grandeur physique qu'il a détecté.

Le détecteur 10 est relié à une unité de traitement 12, configurée pour traiter les mesures. L'unité de traitement 12 comporte un ordinateur ou un processeur spécifique. L'unité de traitement est reliée à une mémoire 13 comportant des instructions, sous forme de programme d'ordinateur ou d'un circuit intégré dédié, pour traiter le signal d'entrée S. Le circuit dédié peut être un circuit de type ASIC (Application Specific Integrated Circuit - Circuit intégré dédié à une application). Le signal d'entrée S est traité de façon à caractériser la grandeur physique détectée. Dans l'exemple décrit, le traitement réalisé par l'unité de traitement vise à effectuer une classification de l'image formée par le capteur d'image. Les images comportent des caractères alphanumériques et l'unité de traitement est programmée pour identifier les caractères alphanumériques. L'identification consiste à classer chaque image dans une classe de caractère prédéterminée. Il s'agit d'une application de type reconnaissance d'image.

D'autres types de caractérisation sont envisageables. Ainsi, une caractérisation peut être, de façon non limitative, une identification, une reconnaissance (reconnaissance d'image, reconnaissance de son), une classification parmi des classes prédéterminées, une détermination d'une probabilité d'appartenance à une classe, ou une estimation d'un paramètre duquel dépend la grandeur physique mesurée.

La figure 2A schématise une architecture d'un algorithme d'analyse 2 exécuté par l'unité de traitement 12. L'image acquise par le détecteur 10 forme une donnée d'entrée IN de l'algorithme d'analyse 2 mis en œuvre par ordinateur.

L'algorithme d'analyse 2 comporte un réseau de neurones NN. Un aspect important de l'invention est que le réseau de neurones comporte plusieurs perceptrons multicouches, chaque perceptron multicouches fonctionnant en parallèle. Dans l'exemple décrit, le réseau de neurones comporte trois perceptrons multicouches 31, 32, 33. Chaque perceptron multicouches s'étend à partir d'une première couche L_i; L₂ et L₃, comme décrit en lien avec la figure 2B. Chaque première couche peut former une couche d'entrée du réseau de neurones. C'est notamment le cas lorsque la donnée d'entrée est un vecteur. Dans cet exemple, la couche d'entrée de chaque perceptron multicouches est alimentée à un bloc d'extraction, ce dernier étant configuré pour extraire des caractéristiques de l'image formant la donnée d'entrée. Ainsi, le réseau de neurones NN comporte trois blocs d'extraction 21, 22, 23, chaque bloc d'extraction étant configuré pour extraire des caractéristiques de l'image formant la donnée d'entrée. Chaque bloc d'extraction est disposé en amont d'un perceptron multicouches, de façon que les caractéristiques de l'image extraites par un bloc d'extraction forment la première couche d'un perceptron multicouches.

D'une façon générale, le réseau de neurones NN est formé de plusieurs réseaux de neurones élémentaires fonctionnant en parallèle, par exemple NNi, NN₂, NN₃ dans le cas de trois réseaux de neurones élémentaires. Chaque réseau de neurones élémentaire comporte un perceptron multicouches 31, 32, 33. Chaque réseau de neurones élémentaire peut comporter un bloc d'extraction de caractéristiques 21, 22, 23 alimentant le perceptron multicouches 31, 32, 33. Dans l'exemple décrit, le réseau de neurones comporte trois réseaux de neurones élémentaires. Par fonctionnant en parallèle, on entend que chaque réseau de neurones élémentaire utilise la même donnée d'entrée et effectue un traitement, indépendamment d'un autre réseau de neurones élémentaire, pour aboutir à une donnée de sortie. Les données de sortie respectives de chaque réseau de neurones élémentaires peuvent être combinées de façon à former la donnée de sortie du réseau de neurones.

Sur la figure 2B, on a schématisé le bloc d'extraction 21 du premier réseau de neurones élémentaire NNi, sachant que les blocs d'extraction 22 et 23 ont une structure similaire. Le bloc d'extraction 21 s'étend entre une couche d'entrée 21j_n , qui correspond à l'entrée IN du réseau de neurones, et une couche de sortie 21_out. Le bloc d'extraction 21 comporte M couches de convolution successives Ci....C_m...CM. Lorsque m > 1, chaque couche de convolution C_m est obtenue par convolution d'une couche précédente par un filtre de convolution, par exemple un filtre de convolution de dimension 5x5. Le nombre M de couches de convolution C_m peut par exemple être égal à 2. La couche de sortie 21_out est usuellement formée par une concaténation des données de la dernière couche de convolution, formant un vecteur de caractéristiques. Le contenu de la couche de sortie 21_out forme les caractéristiques extraites de la donnée d'entrée.

Le bloc d'extraction 21 est configuré pour extraire des caractéristiques pertinentes de l'image, ces dernières formant une donnée d'entrée d'un perceptron multicouches, décrit par la suite. On peut utiliser un bloc d'extraction 21 préprogrammé pour extraire des caractéristiques d'une image. De façon alternative, ou complémentaire, le bloc d'extraction 21 fait l'objet d'un apprentissage, conjointement avec le perceptron multicouches qu'il alimente, de façon à déterminer les paramètres des filtres de convolution mis en œuvre dans les couches de convolution C_m.

Les caractéristique extraites par le bloc d'extraction 21 sont ensuite analysées par un perceptron multicouches 31.

Un aspect important de l'invention est que le réseau de neurones comporte différents réseaux de neurones élémentaires. Dans l'exemple représenté sur la figure 2A, le réseau de neurones NN comporte trois réseaux de neurones élémentaires. Le nombre de réseaux de neurones élémentaires peut être compris entre 2 et 10.

La figure 2C représente une architecture d'un perceptron multicouches 31 d'un réseau de neurones élémentaire NNi, sachant que chaque perceptron multicouches de chaque réseau de neurones élémentaire présente une architecture similaire. Dans l'exemple représenté le perceptron multicouches 31 comporte trois couches Li, L2 et L3. De façon connue dans ce type d'architecture de réseau de neurones, chaque couche comporte des nœuds x_{n p}. Sur la figure 2A, chaque nœud x_{n p} a été schématisé par un cercle. A chaque couche L_n est assigné un rang n. Le rang de la couche L_n est d'autant plus élevé que la couche est proche de la couche de sortie OUTi du perceptron multicouches 31. Dans cet exemple, la couche de sortie OUTi est la couche L3. La couche Li est une couche de rang 1, la couche L2 est une couche de rang 2 et la couche L3 est une couche de rang 3. D'une façon générale, chaque perceptron multicouches comporte au moins deux couches : la couche d'entrée et la couche de sortie. Il peut comporter plusieurs couches intermédiaires entre la couche d'entrée et la couche de sortie.

Dans chaque couche de rang n, à chaque nœud x_{n p} est assigné un ordre p. Le nombre de nœuds x_{n p} dans une couche de rang n est P_n. P_n est par exemple compris entre quelques dizaines et quelques milliers. Les nombres de nœuds respectifs de deux couches différentes peuvent être différents.

Le fonctionnement d'un réseau de neurones de type perceptron multicouches est connu de l'homme du métier. Si l'on considère deux couches successives, i-e de rangs respectifs successifs n — l,n, chaque nœud de la couche L_n de rang n, dite couche aval, reçoit un signal d'activation s_{n p} correspondant à une combinaison linéaire du signal de connexion s

'un ou plusieurs noeuds x_n-1;P' de la couche L_n-1 du rang n — 1, dite couche amont. Ainsi, la valeur s_{n p} du signal d'activation de chaque nœud x_{n p} d'une couche L_n est telle que:

OÙ sn-i,p',p ^est '^e signal de connexion adressé par chaque nœud x_{n-l pl} d'ordre p' de la couche L_n-1 de rang n — 1 vers le nœud d'ordre p de la couche L_n de rang n ; b_n-i,pr est ^un biais associé à chaque nœud x_{n-l pl} de la couche de L_n-1 rang n-1. f_{n p} est une fonction d'activation associée au nœud d'ordre p de la couche de rang n;

Wp' p est un coefficient de connexion entre chaque noeud x_{n-l pl} de la couche précédente et le nœud x_{n p} d'ordre p de couche de rang n.

La forme de chaque fonction d'activation f_{n p} est déterminée par l'homme du métier. Il peut par exemple s'agir d'une fonction de type tangente hyperbolique ou sigmoïde. La valeur des nœuds de la première couche L dépend de la dernière couche du bloc d'extraction. Pour les couches L_n avec n > 1, les paramètres liés à chaque nœud x_{n p}, c'est-à- dire les termes, b_{n-l p}, et w_{p p}, définis en lien avec l'expression (1) peuvent être déterminés lors de l'apprentissage.

Chaque perceptron multicouches 31, 32, 33 de chaque réseau de neurones élémentaire NNi, NN2, NN3 a de préférence le même nombre de couches et le même nombre de nœuds par couche. Au moins une matrice de connexion W_{n-l n} reliant deux couches successives de rangs n — l,n est différente pour chaque perceptron multicouches.

Les sorties respectives OUTi, OUT₂, OUT₃ de chaque perceptron multicouches constituent également les sorties respectives de chaque réseau de neurones élémentaire NNi, NN₂, NN₃. Elles peuvent être combinées dans une couche de combinaison 40, de façon à former une sortie OUT du réseau de neurones 2. La couche de sortie OUT correspond ainsi à une combinaison des sorties de chaque réseau de neurones élémentaire. La combinaison peut être obtenue par une moyenne ou une médiane des sorties des perceptrons multicouches, ou d'autres types de combinaison, par exemple un vote majoritaire, tel que décrit par la suite.

Une particularité d'au moins un perceptron multicouches, et de préférence de chaque perceptron multicouches, est qu'entre au moins deux couches de rangs successifs n — 1, n, plus de 50%, voire plus de 80%, et même plus de 90% des coefficients de connexion sont nuis. La connexion entre les deux couches successives peut être représentée par une matrice de connexion W_{n-l n} , de dimension (P_n-1 P_n), dont chaque terme w_{pl p} est le coefficient de connexion entre le nœud d'ordre p' de la couche de rang n — 1 et le nœud d'ordre p de la couche de rang n. Chaque terme w_{pl p} représente une contribution du nœud x_n-1;P' dans le nœud x_{n p}. La matrice de connexion W_{n-l n} est une matrice creuse, au sens ou plus de 50%, voire plus de 80%, voire plus de 90% ou 95% sont nuis. Par nul, il est entendu égal à zéro où pouvant être considérés comme nuis. Les termes pouvant être considérés comme nuis sont les termes dont la valeur est au moins 10 fois inférieure à au moins un autre terme de la matrice. Les termes de la matrice de connexion sont positifs ou nuis. Cela signifie que la matrice est constituée de termes nuis, ou considérés comme tels, et des termes non nuis positifs.

Au moins un perceptron multicouches, et de préférence chaque perceptron multicouches, est établi de telle sorte qu'au moins une matrice de connexion W_{n-l n} définissant les connexions entre deux couches successives, voire chaque matrice de connexion, soit une matrice creuse telle que définie dans le paragraphe précédent. Chaque matrice de connexion peut être définie, préalablement à la phase d'apprentissage, par tirage aléatoire.

Le recours à un perceptron multicouches présentant au moins une matrice de connexion creuse améliore la diversité d'apprentissage, lorsque l'apprentissage est effectué selon une approche en multi-réseaux fonctionnant en parallèle. Selon une telle approche, plusieurs réseaux de neurones élémentaires, de structure identique, mais dont les matrices de connexions sont différentes, sont mis en œuvre en parallèle. Cela permet une amélioration des performances d'analyse.

L'utilisation d'une matrice de connexion creuse W_{n-l n} entre deux couches consécutives (couche amont L_n - couche aval L_n-i) s'accompagne de préférence d'une structuration de la couche de rang le plus élevé (couche aval) en groupes, ou clusters. Chaque cluster X_{n q} d'une couche L_n de rang n est assigné d'un ordre q. Chaque cluster X_{n q} regroupe plusieurs nœuds x_{n p} de la couche aval. Le nombre de nœuds par cluster peut par exemple être compris entre 2 et 10. La couche aval L_n de rang n est ainsi segmentée en différents clusters, quine se recouvrent pas. Ainsi, de préférence, un nœud x_{n p} ne peut appartenir qu'à un seul cluster X_{n q}.

La figure 3A illustre les principes de mise en œuvre du système de mesure décrit en lien avec la figure 1. Au cours d'une étape 100, le détecteur détecte une grandeur physique et génère un signal d'entrée, par exemple une image. D'une façon générale, le signal d'entrée peut être exprimé sous une forme vectorielle, ou matricielle, ou sous la forme de plusieurs matrices. Au cours d'une étape 110, le signal d'entrée est transmis à l'unité de traitement 12. Au cours d'une étape 120, on forme une donnée d'entrée du réseau de neurones NN à l'aide du signal d'entrée. Au cours d'une étape 130, le réseau de neurones NN est mis en œuvre, le résultat de l'analyse du signal d'entrée étant obtenu au niveau de la couche de sortie OUT.

Avantageusement, la structuration des nœuds d'une couche en clusters s'accompagne d'un processus de sélection d'un nœud ou plusieurs nœuds de chaque couche segmentée en clusters comme décrit par la suite, en lien avec les figures 3B à 3E. La figure 3B illustre le processus de sélection tel qu'il est effectué pour chaque cluster. Sur la figure 3C, on a extrait un détail de la figure 2C, qui montre les connexions des nœuds du premier cluster X_{n q}. Dans cet exemple, n = 2 et q = 1. Le cluster X_{n l} comporte trois nœuds x_{n l}, x_{n 2}, x_{n 3}. Les nœuds sont activés par des nœuds de la couche amont L_n-lt de rang n-1. Chaque nœud x_{n p} de la couche L_n reçoit un signal d'activation s_{n p} de la couche amont, comme décrit en lien avec (1). Lorsque le nœud x_{n p} est connecté à un seul nœud de la couche amont, le signal s_{n p} correspond au signal de connexion s_{n p p}r généré par ledit nœud, d'ordre p', de la couche amont. Lorsque le nœud x_{n p} est connecté à plusieurs nœuds de la couche amont, le signal s_np correspond à la somme des signaux de connexion signal générés par lesdits nœuds de la couche amont.

Au cours d'une l'étape 131, on prend en compte les signaux d'activation de chaque nœud s_np du cluster.

De préférence, au cours d'une étape 132, les signaux d'activation de chaque nœud sont normalisés, de façon à être compris entre une valeur minimale et une valeur maximale prédéterminées. De préférence, les signaux sont normalisés de façon à être homogène à une probabilité, en étant compris entre la valeur minimale 0 et la valeur maximale 1. La normalisation peut être effectuée selon :

°ù Z ' x_{n q} ^sn,p correspond à la somme des signaux d'activation des nœuds du cluster d'ordre q de la couche n et s^ _p correspond au signal d'activation normalisé de chaque nœud x_{n p} d'ordre p du cluster X_{n q} d'ordre q. L'étape 132 est optionnelle.

Au cours d'une étape 133, les signaux d'activation du cluster sont traités par une fonction de sélection f. La fonction de sélection est de préférence une fonction continue et monotone. La fonction de sélection est ou comporte préférentiellement une fonction sigmoïde, telle que schématisée sur la figure 3D, ou une fonction approchant une fonction sigmoïde. De façon alternative, la fonction de sélection peut être une fonction linéaire par morceaux, comme représenté sur la figure 3E. La fonction de sélection permet d'accentuer la discrimination entre les valeurs des signaux d'activation normalisés

Les signaux d'activation f s^p) traités par le fonction de sélection sont des signaux de comparaison, destinés à être comparés les uns par rapport aux autres, ou par rapport à un seuil. C'est l'objet d'une étape de comparaison 134.

Au cours de la comparaison, selon une première possibilité, on sélectionne le signal de comparaison f s^p) le plus élevé. Selon une autre possibilité, on sélectionne chaque signal de comparaison f(Sn,p) dépassant une valeur seuil prédéterminée.

Suite à la comparaison : les nœuds x_{n p} du cluster X_{n q} correspondant aux signaux de comparaison sélectionnés sont activés. les nœuds x_{n p} du cluster X_{n q} correspondant aux signaux de comparaison non sélectionnés sont désactivés.

Ainsi, au cours d'une étape 135, on active ou on désactive les nœuds x_{n p} du cluster X_{n q} en fonction de la comparaison. Les nœuds activés reçoivent les signaux d'activation s_{n p} provenant de la couche amont. Ils génèrent, le cas échéant, un signal de connexion à destination d'un ou plusieurs nœuds de la couche suivante. Les nœuds non activés ne génèrent pas de signal de connexion pour la couche suivante. Si la couche comportant les nœuds est la dernière couche du perceptron, les nœuds non activés sont ignorés pour la suite du traitement.

Les étapes 131 à 135 sont répétées pour chaque cluster définis sur au moins une couche du perceptron multicouches. De préférence, les clusters d'une même couche comportent le même nombre de nœuds.

La fonction de sélection f peut avoir la forme analytique suivante :

On remarque que, suite à la normalisation, lorsque les valeurs des signaux d'activation s„_;P sont comprises entre 0 et 1, les valeurs des signaux de comparaison (s^_p) sont également comprises entre 0 et 1.

6 est un seuil et T est un paramètre désigné par le terme « température ».

Les valeurs de 6 et de T sont prédéterminées ou peuvent s'auto-ajuster. Lorsque les valeurs de sont comprises entre 0 et 1, le seuil 6 est également compris entre 0 et 1. Lorsque 6 > 0.5, seul un neurone peut être activé suite au processus de sélection.

La température T détermine la pente de la fonction de sélection. Plus la valeur de T est faible, plus la pente de la sigmoïde est élevée, ce qui augmente le nombre d'occurrences pour lesquelles (s„_iP) =0⁺ ou (s„_iP) =1". Les désignations 0⁺ et 1" désignent respectivement tendant vers 0 en étant supérieur à 0, et tendant vers 1 en étant inférieur à 1. Une faible valeur de T fait tendre la fonction sigmoïde vers une fonction de type créneau.

Il est préférable que la fonction f soit dérivable et soit strictement croissante. En effet, lors de la phase d'apprentissage, des algorithmes de type descente de gradient sont utilisés. La mise en œuvre de ce type d'algorithme peut présenter des difficultés si la dérivée de la fonction f est nulle. Selon une possibilité, la fonction f comporte une fonction sigmoïde, telle qu'explicitée en lien avec (3), à laquelle est additionnée un terme linéaire.

Un aspect important de l'invention est le recours à la normalisation des valeurs s„_;P par la somme des signaux d'activation atteignant les nœuds du cluster considéré. Ainsi, les valeurs s„_;P sont assimilables à des probabilités. Cela permet de disposer de valeurs s'étendant dans un intervalle maîtrisé, ce qui est plus approprié préalablement à l'application d'une fonction sigmoïde. Cette approche probabiliste, couplée à un processus de sélection effectué en parallèle sur plusieurs petits clusters d'une même couche, est particulièrement intéressante lorsque que l'on considère un petit nombre de signaux d'activation, induit par une matrice de connexion creuse. On tire profit d'un principe de diversité, qui consiste à multiplier les compétitions entre des petits sous-ensembles de signaux.

D'une façon générale, la taille de chaque cluster est comprise entre 2 et 10 nœuds. Le nombre de nœuds sélectionné dans un cluster est de 1 ou de 2 par cluster soit de l'ordre de 10% à 50% des nœuds formant le cluster.

Comme précédemment décrit, l'algorithme d'analyse 2 est destiné à traiter des données d'entrée résultant d'une détection d'une grandeur physique, formant un vecteur ou une matrice ou plusieurs matrices. Lorsque chaque réseau de neurones élémentaire comporte un bloc d'extraction par couches de convolution, les données formant la couche d'entrée du perceptron multicouches sont positives, ce qui facilite la normalisation précédemment décrite. Le fait que les valeurs soient positives permet d'éviter le recours à une fonction complexe de type fonction exponentielle normalisée (usuellement désignée softmax), et le coût mémoire associé.

De préférence, le processus de sélection tel que précédemment décrit est mis en œuvre sur plusieurs couches de chaque perceptron multicouches disposées en aval de la première couche Li.

Le fait d'utiliser des réseaux de neurones élémentaires, comportant chacun un perceptron multicouches tel que précédemment décrit, disposés en parallèle permet de tirer profit d'une certaine diversité, due à la structure de chaque perceptron : leur structure est similaire, à au moins une matrice de connexion près. Cela permet d'augmenter la robustesse de l'analyse effectuée par le réseau de neurones d'analyse, formé par l'association des différents perceptrons multicouches, et combinant les sorties résultant des perceptrons multicouches. Le fait d'utiliser des matrices creuses permet d'aboutir simplement à une grande diversité, en particulier lorsque les matrices de connexion sont définies par un tirage aléatoire. Les matrices de connexion ainsi formées sont très décorrélées les unes des autres.

Il est à noter que le recours à un réseau de neurones comportant une ou plusieurs matrices de connexion creuses n'est pas évident. En effet, il est généralement admis que les performances d'un réseau de neurones diminuent lorsque les connexions sont peu nombreuses entre deux couches successives. Cependant, un élément clef de l'invention est que le recours à des matrices creuses, combiné à la sélection dans chaque cluster, telle que précédemment décrite, et/ou à une mise en parallèle de plusieurs réseaux de neurones élémentaires identiques, aux matrices de connexion près, permet de constituer un réseau de neurones NN performant, compte tenu de la diversité d'apprentissage conférée par les matrices de connexions.

Les inventeurs ont testé un procédé d'analyse tel que décrit en lien avec les figures 2A à 2C. Les données d'entrée étaient des images résultant de la base de données MNIST, par une sélection de seulement 10 % d'entre elles. La base de donnée MNIST est connue de l'homme du métier. Elle comporte 60000 échantillons représentatifs de dix chiffres allant de 0 à 9. Chaque image représente un caractère codé sous 28 x 28 pixels, soit 784 pixels. La donnée d'entrée IN du réseau de neurones était un vecteur formé par les 784 pixels. On a utilisé, dans chaque réseau de neurones élémentaire, un bloc d'extraction formé de deux couches de convolution : une première couche de convolution comportait 64 filtres de convolution de taille 5x5 et une deuxième couche de convolution comportait 128 filtres de convolution de taille 5x5. La sortie du bloc d'extraction était formée d'un vecteur de caractéristiques de dimension (1, 4608).

Comme précédemment décrit, le réseau de neurones comportait trois réseaux de neurones élémentaires fonctionnant en parallèle. Chaque réseau de neurones élémentaire comportait un bloc d'extraction (couches de convolution) 21, 22, 23, tel que décrit dans le paragraphe précédent, alimentant respectivement un perceptron multicouches 31, 32, 33. Chaque perceptron multicouches comportait, outre la première couche Li (n = 1), trois couches L2, L3, L₄ comportant respectivement 1500 nœuds, 1200 nœuds et 504 nœuds. Chacune de ces couches était segmentée en clusters de 3 nœuds chacun. Le procédé de sélection, tel que décrit en lien avec la figure 3B, a été mis en œuvre sur chaque cluster de chaque couche. On a utilisé une fonction sigmoïde telle qu'explicitée dans (3), à laquelle on a utilisé un terme linéaire de pente égale à 0.05, afin de former une fonction strictement croissante et éviter une dérivée trop faible. Les valeurs 6 étaient respectivement de 0.64, 0.79 et 0.4 pour les couches L₂, L₃, L₄. La valeur de T était égale à 0.05 pour chaque couche. Compte tenu du terme linéaire, la fonction de sélection était :

L'apprentissage des trois réseaux de neurones élémentaires a été effectué en utilisant des images annotées, avec un nombre d'époques limité à 10. Une époque correspond à un nombre de fois où la totalité des images sont soumises au réseau, dans un ordre différent à chaque époque.

La couche de sortie de chaque réseau de neurones élémentaire était un mot de code binaire de longueur 504, structuré en 168 clusters. Chaque mot résultant de la couche de sortie correspondait au caractère identifié.

Un test visant à estimer la qualité de la classification a été effectué, en analysant les classifications résultant des trois réseaux de neurones élémentaires mis en œuvre indépendamment les uns des autres, ainsi qu'une classification obtenue en effectuant une combinaison, selon un vote majoritaire, des classifications établies par les trois réseaux de neurones élémentaires. Par vote majoritaire, on entend que le résultat de la classification correspond à la classification majoritaire parmi les classifications résultant de chaque réseau de neurones élémentaire. La qualité de classification est quantifiée par un pourcentage de caractères correctement reconnus. L'utilisation des réseaux de neurones élémentaires, sans combinaison des résultats, a donné lieu aux pourcentages respectifs de 99.15%, 98.95% et 99.11%. En combinant les résultats, selon l'approche du vote majoritaire, on a obtenu un pourcentage de 99.23%, ce qui correspond à une augmentation de 0.16% par rapport à la moyenne des pourcentages obtenus avec les réseaux de neurones élémentaires utilisés de façon indépendante. Ainsi, la mise en parallèle de réseaux de neurones élémentaires, comportant au moins une matrice de connexion, creuse, est différente, améliore la performance d'analyse.

A ces niveaux de performance, un gain de 0.16% n'est pas négligeable. Cela correspond à 18% de l'écart entre la moyenne des pourcentages et la valeur idéale de 100%. Ce résultat est particulièrement encourageant, sachant que l'on s'est limité à trois perceptrons multicouches utilisés en parallèle.

On va à présent décrire un autre intérêt de l'approche de sélection précédemment décrite, combinée à une mise en parallèle de perceptrons multicouches de structures identiques, à au moins une matrice de connexion près. L'apprentissage d'un réseau de neurones nécessite des données annotées, c'est-à-dire des données d'entrée dont le label de sortie est connu. On parle alors d'apprentissage supervisé. La mise en œuvre de réseaux de neurones fonctionnant en parallèle, permet d'augmenter le nombre de données d'apprentissage, en utilisant des données non annotées. On passe ainsi à un apprentissage supervisé, dans lequel toutes les données d'apprentissage sont annotées, à un apprentissage partiellement supervisé, dans lequel une partie des données utilisées pour l'apprentissage ne sont pas préalablement annotées.

La figure 4A représente une architecture d'un algorithme, similaire à la structure représentée sur la figure 2A. Un premier perceptron multicouches 31 est disposé en aval d'un bloc d'extraction convolutif 21. L'association du bloc d'extraction 21 et du perceptron multicouches 31 forme un premier réseau de neurones NN_a. Dans le premier perceptron multicouches 31, au moins deux couches successives (couche amont - couche aval) sont reliées par une matrice de connexion creuse, la couche aval étant segmentée en clusters de nœuds mettant en œuvre un processus de sélection tel que précédemment décrit. Le premier réseau de neurones NN_a fait l'objet d'un apprentissage avec des premières données d'apprentissage annotées Di, mais également des premières données d'apprentissage non annotées di. Dans cet exemple, les données d'apprentissage, qu'elles soient annotées (10 % des données d'apprentissage) ou non (90% des données d'apprentissage), sont des images extraites de la base de données MNIST.

On dispose également d'un deuxième perceptron multicouches 32, relié à un bloc d'extraction convolutif 22, dont la structure est identique au premier perceptron multicouches 31. L'association du bloc d'extraction 22 et du perceptron multicouches 32 forme un deuxième réseau de neurones NNb. Le deuxième perceptron multicouches 32 est similaire au premier perceptron multicouches 31, à au moins une matrice de connexion près. Ainsi, entre au moins deux couches, le premier et le deuxième perceptrons multicouches ont au moins une matrice de connexion W_{n-l n} différente l'un de l'autre. Le deuxième réseau de neurones NNb fait l'objet d'un apprentissage avec des deuxièmes données d'apprentissage annotées D₂, mais également des deuxièmes données d'apprentissage non annotées d₂. Les premières données annotées Di et les deuxième données annotées D₂ sont de préférence des ensembles disjoints. Il en est de même des premières données non annotées di et des deuxièmes données non annotées d₂.

La figure 4B illustre les principales étapes d'un procédé d'apprentissage des deux réseaux de neurones NN_a et NNb. Au cours des étapes 200 et 300, le premier et le deuxième réseaux de neurones NN_a et NNb font respectivement l'objet d'un apprentissage respectivement à l'aide des premières et deuxièmes données annotées Di et D₂. Suite à l'apprentissage : le premier réseau de neurones NN_a effectue une annotation des premières données non annotées di, de façon à obtenir des premières données pseudo-annotées D'i : étape 210 ; le deuxième réseau de neurones NNb effectue une annotation des deuxièmes données non annotées d₂, de façon à obtenir des deuxièmes données pseudo-annotées D'₂ : étape 310 .

Les annotations des données pseudo-annotées D'i et D'₂ sont provisoires. On parle de pseudoannotations, dans la mesure ou les annotations ne sont pas définitives et peuvent être ajustées durant le processus itératif décrit ci-après.

Les premières données pseudo-annotées D'i sont transmises au deuxième réseau de neurones NNb : étape 220. De façon symétrique, les deuxièmes données pseudo-annotées D'₂ sont transmises au premier réseau de neurones NN_a: étape 320.

Au cours de l'étape 230, le premier réseau de neurones NN_a est réentraîné à l'aide des premières données annotées Di et des deuxièmes données pseudo-annotées D'₂. De façon symétrique, le deuxième réseau de neurones NNb est réentraîné à l'aide des deuxièmes données annotées D₂ et des premières données pseudo-annotées D'i.

Les étapes 210 à 230 ainsi que 310 à 330 peuvent être réitérées. A chaque itération : lors des étapes 210 et 310, le premier réseau de neurones NN_a et le deuxième réseau de neurones NNb effectuent une mise à jour des pseudo-annotations respectivement des premières données pseudo-annotées et des deuxièmes données pseudo-annotées ; lors des étapes 220 et 320, le premières et deuxièmes données pseudo-annotées, respectivement mises à jour lors des étapes 210 et 310 de la même itération, sont respectivement transmises au deuxième réseau de neurones NNb et au premier réseau de neurones NN_a; lors des étapes 230 et 330, les premiers et deuxièmes réseaux de neurones sont réentraînés, en utilisant respectivement : o les premières données annotées Di et les deuxièmes données pseudo-annotées D'₂ ; o les deuxièmes données annotées D₂ et les premières données pseudo-annotées D'i.

Les étapes 210 à 230 et 310 à 330 sont réitérées jusqu'à l'atteinte d'une stabilité dans les pseudo-annotations, par exemple lorsqu'une proportion prédéfinie de données pseudo- annotées ne change plus d'annotation suite à deux itérations successives. Les pseudoannotations sont alors considérées comme stables.

En cas d'instabilité dans une annotation, par exemple lorsqu'après 20 ou 30 itérations, une pseudo-annotation n'a pas été stabilisée, une annotation par un utilisateur humain peut être sollicitée.

La figure 5 illustre une variante de l'architecture décrite en lien avec la figure 4A. Selon cette variante : le premier réseau de neurones NN_a comporte trois premiers réseaux de neurones élémentaires NN_a,i, NN_a,2, NN_a,3 fonctionnant en parallèle. Chaque premier réseau de neurones élémentaire comporte un bloc d'extraction (21i, 212, 2I3) couplé à un perceptron multicouches (31i, 312, 31s). Chaque premier réseau de neurones élémentaire présente la même structure : même nombre de couches, même nombre de nœuds par couche. Au moins une matrice de connexion entre deux couches de chaque perceptron multicouches est différente dans chaque premier réseau de neurones élémentaire. le deuxième réseau de neurones NNb comporte plusieurs deuxièmes réseaux de neurones élémentaires NNb,i, NNb, 2, NNb, 3 fonctionnant en parallèle. Chaque deuxième réseau de neurones élémentaire comporte un bloc d'extraction (22i, 22₂, 22₃) couplé à un perceptron multicouches (32i, 32₂, 32₃). Chaque deuxième réseau de neurones élémentaire présente la même structure : même nombre de couches, même nombre de nœuds par couche. Au moins une matrice de connexion entre deux couches de chaque perceptron multicouches est différente dans chaque deuxième réseau de neurones élémentaire.

Les perceptrons multicouches du premier et du deuxième réseau de neurones sont respectivement reliés à une première couche de combinaison 41 et une deuxième couche de combinaison 42. Chaque une couche de combinaison est configurée pour combiner les sorties émanant des perceptrons multicouches auquel elle est connectée. La combinaison peut être basée sur une moyenne ou une médiane. La sortie de chaque couche de combinaison constitue la sortie du réseau de neurones.

Les premiers et deuxièmes réseaux de neurones NN_a, NNb peuvent être mis en œuvre, à des fins d'apprentissage, comme décrit en lien avec la figure 4B. Les inventeurs ont mis en œuvre le procédé décrit en lien avec la figure 4B en utilisant une architecture telle que décrite en lien avec la figure 5. Les premiers et deuxièmes réseaux de neurones NN_a, NNb ont fait l'objet d'un apprentissage en utilisant des premières données annotées (5 % de la base de données), des premières données non annotées, des deuxièmes données annotées (5 % de la base de données) et des deuxièmes données non annotées. Le nombre de premières données pseudo-annotées, choisies au hasard à chaque itération, était égal au nombre de premières données annotées. De façon similaire, le nombre de deuxièmes données pseudo-annotées, choisies au hasard à chaque itération, était égal au nombre de deuxièmes données annotées. Les premières données annotées et pseudo-annotées après 20 itérations ont été utilisées pour effectuer l'apprentissage d'un réseau de neurones tel que décrit sur la figure 5. Le taux de chiffres correctement reconnus a atteint 99.4%.

Ainsi, à partir de réseaux de neurones fonctionnant en parallèle, et de façon croisée, il est possible d'annoter des données, en formant des données pseudo-annotées, à partir d'un faible nombre de données initialement annotées. Le ratio entre les données initialement annotées et les données pseudo-annotées peut typiquement être inférieur à 10%.

Les performances peuvent être améliorées en augmentant le nombre de réseaux de neurones travaillant en parallèle. Les architectures décrites dans l'exemple comportaient 3 réseaux fonctionnant en parallèle. Il est possible d'augmenter ce nombre, et prévoir 4 ou 5 réseaux parallèles, voire davantage.

L'invention pourra être utilisée pour le traitement de données mesurées, par exemple de traitement d'images, par exemple la reconnaissance d'image, ou le traitement de sons, par exemple la classification de sons ou l'identification de locuteurs. Dans le cas d'un traitement de sons, chaque donnée d'entrée peut être représentée sous la forme d'une image résultant l'évolution d'un spectre de fréquence en fonction du temps. Ainsi, l'invention s'applique à toute donnée pouvant être représentée sous la forme d'un vecteur multidimensionnel.

Claims

24 REVENDICATIONS

1. Procédé, mis en œuvre par ordinateur, d'analyse d'une donnée numérique, prenant la forme d'un vecteur ou d'une matrice, la donnée numérique résultant d'une mesure effectuée par un détecteur, et formant une donnée d'entrée d'un réseau de neurones, le réseau de neurones comportant plusieurs réseaux de neurones élémentaires (NNi, NN₂, NN₃), chaque réseau de neurones élémentaire comprenant un perceptron multicouches s'étendant entre :

- une première couche (Li, 1.2, L3) ;

- une couche de sortie (OUTi, OUT2,OUT₃), la couche de sortie comportant un résultat d'analyse élémentaire, par le réseau de neurones élémentaire, de la donnée numérique ; chaque perceptron multicouches étant tel que :

- à chaque couche est assigné un rang (n), le rang d'une couche étant d'autant plus élevé que la couche est proche de la couche de sortie ;

- au moins deux couches de rangs successifs, formant une couche amont et une couche aval, comportent des nœuds, des nœuds des deux couches

étant connectés, chaque nœud de la couche amont (x_{n-l p}i) adressant un signal de connexion (s_{n-l p}>_p) à au moins un nœud de la couche aval (x_{n p}) auquel il est connecté, la connexion des nœuds des couches amont et aval étant définie par une matrice de connexion (W_{n-l n}), chaque terme de la matrice de connexion (w_PiP,) étant associé à un nœud de la couche amont et un nœud de la couche aval, et quantifiant une contribution du noeud de la couche amont pour le nœud de la couche aval ;

- le procédé comportant les étapes suivantes :

• a) utilisation de la donnée d'entrée pour alimenter la première couche du perceptron multicouches de chaque réseau de neurones élémentaire;

• b) mise en œuvre de chaque réseau de neurones élémentaires pour obtenir un résultat d'analyse élémentaire par la couche de sortie du perceptron multicouches de chaque réseau de neurones élémentaire; le procédé étant caractérisé en ce que :

- au moins une matrice de connexion (W_{n-l n}) du perceptron multicouches de chaque réseau de neurones élémentaire est une matrice creuse, comportant au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de la matrice ; - le perceptron multicouches de chaque réseau de neurones élémentaire comporte respectivement, entre deux couches successives de mêmes rangs respectifs, des matrices de connexion creuses différentes.

2. Procédé selon la revendication 1, dans lequel chaque réseau de neurones élémentaire comporte un bloc d'extraction (21, 22, 23), programmé pour extraire des caractéristiques de la donnée d'entrée, les caractéristiques ainsi extraites formant la première couche du perceptron multicouches (31, 32, 33) dudit réseau de neurones élémentaire.

3. Procédé selon la revendication 2, dans lequel le bloc d'extraction comporte différentes couches de convolution successives, chaque couche de convolution résultant de l'application d'un filtre de convolution à la couche de convolution précédente.

4. Procédé selon l'une quelconque des revendications précédentes, dans lequel chaque perceptron multicouches comporte un même nombre de couches et un même nombre de nœuds par couche.

5. Procédé selon l'une quelconque des revendications précédentes, dans lequel chaque perceptron multicouches comporte au moins une couche intermédiaire, entre la première couche et la couche de sortie.

6. Procédé selon l'une quelconque des revendications précédentes, dans lequel les deux couches de rangs successifs d'au moins un perceptron multicouches sont telles que :

- les nœuds de la couche aval (x_{n p}) sont segmentés en différents groupes (X_{n q}); le procédé étant tel l'étape b) comporte, pour le perceptron multicouches, les sous-étapes suivantes :

- b-i) à partir des signaux de connexion (s_{n-l p}/_p) résultant des nœuds de la couche amont, connectés à un même groupe de la couche aval, sélection de nœuds, appartenant audit groupe, au moins un nœud dudit groupe n'étant pas sélectionné ;

- b-ii) activation des nœuds sélectionnés, au moins un nœud du groupe n'étant pas activé.

7. Procédé selon la revendication 6, dans lequel :

- au moins un perceptron multicouches comporte plusieurs paires comportant deux couches successives, chaque paire comportant une couche amont et une couche aval, une matrice de connexion étant définie entre la couche amont et la couche aval ; - chaque matrice de connexion (W_{n-l n}) comporte au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de ladite matrice ;

8. Procédé selon l'une quelconque des revendications 6 ou 7, dans lequel la sous-étape b-i) comporte, pour chaque groupe d'une couche aval d'au moins un perceptron multicouches:

- calcul d'un signal d'activation (s_{n p}) pour chaque nœud (x_{n p}) du groupe (X_{n q}), en fonction de signaux de connexion (s_{n-l p}>_p) émis, vers ledit nœud, par chaque nœud de la couche amont connecté audit nœud;

- normalisation des signaux d'activation calculés pour chaque nœud du groupe de façon que les signaux normalisés (s^_p) sont compris entre une valeur minimale (0) et une valeur maximale (1) prédéterminées ;

- sélection des nœuds du groupe en fonction des signaux d'activation normalisés (s^_p).

9. Procédé selon la revendication 8, dans lequel la sous-étape b-i) comporte :

- prise en compte d'une fonction de sélection ( ), la fonction de sélection étant une fonction croissante ou strictement croissante ;

- application de la fonction de sélection ( ) à chaque signal d'activation normalisé, de façon à calculer pour chaque signal d'activation normalisé, un signal de comparaison (/(Sn,_p));

10. Procédé selon la revendication 9, dans lequel la fonction de sélection comporte une fonction sigmoïde ou linéaire par morceaux.

11. Procédé selon l'une quelconque des revendications précédentes, dans lequel au moins une ou chaque matrice de connexion d'un perceptron multicouches comporte au moins 90% ou au moins 95% de termes nuis ou au moins 10 fois inférieurs à au moins un autre terme de ladite matrice.

12. Procédé selon l'une quelconque des revendications précédentes, dans lequel pour au moins un perceptron multicouches, chaque signal de connexion entre deux nœuds de deux couches successives est positif. 27

13. Procédé selon l'une quelconque des revendications précédentes, comportant une étape c) de combinaison des résultats d'analyse élémentaires, résultant de chaque réseau de neurones élémentaire, pour former un résultat d'analyse.

14. Procédé selon la revendication 13, comportant, préalablement à l'étape a),

- mesure d'une grandeur physique (11) par un détecteur (10);

- formation, par le détecteur, d'un signal d'entrée (S) à partir de la grandeur physique mesurée ;

- formation de la donnée d'entrée à partir du signal d'entrée ; le résultat d'analyse étant une caractérisation de la grandeur physique mesurée.

15. Procédé selon la revendication 13, comportant, préalablement à l'étape a) :

- formation de la donnée d'entrée à l'aide du signal d'entrée ; le résultat d'analyse étant une caractérisation de la donnée mémorisée.

16. Système de mesure, comportant :

- un détecteur (10), configuré pour mesurer une grandeur physique (11) et pour établir un signal d'entrée (S) à partir de la grandeur physique mesurée ;

- une unité de traitement (12), programmée pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 15, à partir d'une donnée d'entrée formée à l'aide du signal d'entrée.

17. Système de mesure selon la revendication 16, dans lequel le détecteur est un capteur d'image ou un capteur de son ou un capteur magnétique.

18. Support de données lisible par ordinateur, ou configuré pour être connecté à un ordinateur, ou circuit intégré, comportant des instructions pour mettre en œuvre un procédé selon l'une quelconque des revendications 1 à 15.

19. Programme d'ordinateur comportant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent à la mise en œuvre d'un réseau de neurones, configuré pour analyser une donnée d'entrée, le réseau de neurones comportant plusieurs réseaux de neurones élémentaires, chaque réseau de neurones élémentaire comprenant un perceptron multicouches s'étendant entre : 28

- une première couche (Li, L2, L3) ;

- une couche de sortie (OUTi, OUT2,OUT3), la couche de sortie comportant un résultat d'analyse élémentaire, par le réseau de neurones élémentaire, de la donnée numérique ; chaque perceptron multicouches étant tel que :

étant connectés, chaque nœud de la couche amont (x_{n-x p}') adressant un signal de connexion (s_{n-1 p}> _p) à au moins un nœud de la couche aval (x_{n p}) auquel il est connecté, la connexion des nœuds des couches amont et aval étant définie par une matrice de connexion (W_{n-l n}), chaque terme de la matrice de connexion (w_{p pl}) étant associé à un nœud de la couche amont et un nœud de la couche aval, et quantifiant une contribution du noeud de la couche amont pour le nœud de la couche aval ; le programme étant caractérisé en ce que ;

- au moins une matrice de connexion (W_{n-l n}) de chaque perceptron multicouches est une matrice creuse, comportant au moins 50 % de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de la matrice ;

- les perceptrons multicouches comportent respectivement, entre deux couches successives de mêmes rangs respectifs, des matrices de connexion creuses différentes. . Programme d'ordinateur selon la revendication 19, dans lequel chaque perceptron multicouches comporte moins une couche intermédiaire, entre la couche d'entrée et la couche de sortie. . Programme d'ordinateur selon la revendication 19 ou la revendication 20, dans lequel

- chaque matrice de connexion (W_{n-l n}) comporte au moins 50% de termes nuis ou dont la valeur est au moins dix fois inférieure à au moins un autre terme de ladite matrice. 29 Programme d'ordinateur selon l'une quelconque des revendications 19 à 21, comportant des instructions pour combiner des résultats d'analyse résultant de chaque réseau de neurones élémentaire.