FR3021776A1 - Procede d'identification d'une relation entre des elements physiques - Google Patents

Procede d'identification d'une relation entre des elements physiques Download PDF

Info

Publication number
FR3021776A1
FR3021776A1 FR1454889A FR1454889A FR3021776A1 FR 3021776 A1 FR3021776 A1 FR 3021776A1 FR 1454889 A FR1454889 A FR 1454889A FR 1454889 A FR1454889 A FR 1454889A FR 3021776 A1 FR3021776 A1 FR 3021776A1
Authority
FR
France
Prior art keywords
value
distribution
class
individuals
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1454889A
Other languages
English (en)
Inventor
Anne-Claire Brunet
Jean-Michel Loubes
Jean-Marc Azais
Michael Courtney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vaiomer
Centre National de la Recherche Scientifique CNRS
Universite Toulouse III Paul Sabatier
Original Assignee
Vaiomer
Centre National de la Recherche Scientifique CNRS
Universite Toulouse III Paul Sabatier
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vaiomer, Centre National de la Recherche Scientifique CNRS, Universite Toulouse III Paul Sabatier filed Critical Vaiomer
Priority to FR1454889A priority Critical patent/FR3021776A1/fr
Priority to PCT/EP2015/060779 priority patent/WO2015180972A1/fr
Priority to EP15722538.4A priority patent/EP3149638A1/fr
Priority to US15/314,326 priority patent/US20170154151A1/en
Publication of FR3021776A1 publication Critical patent/FR3021776A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

La présente invention concerne un procédé d'identification d'une relation entre des éléments physiques, lesdits éléments présentant éventuellement une activité mesurable, le procédé comprenant les étapes suivantes : - définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage, - pour chaque valeur de seuillage, obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe, - sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.

Description

1 Procédé d'identification d'une relation entre des éléments physiques La présente invention concerne un procédé d'identification d'une relation entre des éléments physiques. L'invention se rapporte également à un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. L'invention propose également un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi les produits programme d'ordinateur associés. L'apparition du séquençage des protéines dans les années 1950 puis de l'ADN dans les années 1970, et la mise au point de séquenceurs automatiques, a révolutionné la biologie. A l'approche classique descriptive et réductionniste (un gène, un ARN messager, une protéine) a succédé une compréhension plus globale des systèmes biologiques basée sur l'analyse d'ensembles d'éléments biologiques (« -omes ») dont on étudie les structures (« -omiques »). L'idée de base associée aux approches « omiques » consiste à appréhender la complexité du vivant dans son ensemble, au moyen de méthodologies les moins restrictives possibles sur le plan descriptif.
De telles approches comprennent principalement : la génomique (étude des gènes), la transcriptomique (analyse de l'expression des gènes et sa régulation), la protéomique (étude des protéines), la métabolomique (analyse des métabolites). La génomique se divise en deux branches : la génomique structurale, qui porte sur le séquençage du génome entier, et la génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquences. Dans la génomique fonctionnelle, les techniques sont appliquées à un grand nombre de gènes en parallèle : par exemple le phénotype de mutants peut ainsi être analysé pour toute une famille de gènes, ou l'expression de tous les gènes d'un organisme entier. La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Elle repose sur la quantification de l'ensemble de ces ARN messagers, ce qui permet d'avoir une indication relative du taux de transcription de différents gènes dans des conditions données. La protéomique est l'analyse de l'ensemble des protéines d'un organite, d'une cellule, d'un tissu, d'un organe ou d'un organisme dans des conditions données. La protéomique s'attache à identifier de manière globale les protéines extraites d'une culture cellulaire, d'un tissu ou d'un fluide biologique, leur localisation dans les compartiments 3021776 2 cellulaires, leurs éventuelles modifications post-traductionnelles, ainsi que leur quantité. Elle permet de quantifier les variations de leur taux d'expression par exemple en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine... Elle étudie aussi les interactions 5 que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, ou d'autres substances. La métabolomique étudie l'ensemble des métabolites (sucres, acides aminés, acides gras, etc.) présents dans une cellule, un organe, un organisme. Les approches précédentes permettent d'obtenir de très nombreuses informations 10 sur la réponse cellulaire et/ou tissulaire à une exposition in vitro ou in vivo. Elles peuvent en particulier être utiles pour mettre en évidence et identifier de nouveaux biomarqueurs (de diagnostic, de susceptibilité, de pronostic, d'exposition, d'effet), générer de nouvelles connaissances sur le plan mécanistique (modes d'action), ou encore élaborer de nouveaux outils d'efficacité ou de toxicologie prédictive pour aider à l'identification de 15 nouvelles cibles thérapeutiques ou de nouveaux médicaments candidats. L'automatisation des techniques de séquençage et le développement des techniques à haut débit, rendus possible notamment grâce à l'apparition de plateformes technologiques spécialisées, a permis l'industrialisation de la production des données et l'analyse simultanée d'un grand nombre de variables.
20 Il en découle un très grand nombre de données à traiter, analyser, visualiser et interpréter de la manière la plus informative possible afin d'en extraire le maximum d'information sur le processus biologique ou sur le système biologique étudié. Il est donc souhaitable de disposer de moyens biostatistiques et bioinformatiques puissants permettant de traiter, analyser et interpréter la masse de données générées par 25 les approches « omiques ». Du point de vue biostatistique, les données obtenues par les approches « omiques » portent sur de très nombreuses variables qu'il convient d'analyser conjointement. Par exemple, les analyses transcriptomiques permettent d'étudier simultanément l'expression de plusieurs milliers de gènes. En revanche, le nombre 30 d'individus sur lesquelles ces analyses sont réalisées est limité du fait de la difficulté à constituer des cohortes de patients, de sorte que le nombre de variables excède généralement la taille de l'échantillon. Les méthodes classiques en statistique ne peuvent plus être utilisées. L'analyse des données obtenues revient alors à considérer deux problématiques distinctes de la recherche en statistique, à savoir le calcul de la matrice 35 de covariance et la classification non supervisée des sommets d'un graphe aussi appelée partitionnement du graphe.
3021776 3 Concernant la première problématique, dans le contexte de la grande dimension, quand le nombre de variables excède la taille de l'échantillon, il existe deux grandes familles de méthodes pour faire une estimation pénalisée de la matrice de covariance. La première famille regroupe des méthodes qui tirent parti d'un ordre naturel dans les 5 données en faisant l'hypothèse que plus les variables sont éloignées suivant cet ordre et plus leur dépendance est faible. La deuxième famille de méthodes regroupe des méthodes d'estimation de la covariance insensible à l'ordre de présentation des données. C'est le cas des méthodes qui consistent à ajouter une pénalité 11 au problème de maximisation de la vraisemblance dans le cas gaussien ou des méthodes de seuillage sur 10 la matrice de covariance empirique. Toutefois, les deux familles de méthodes sont inefficaces lorsque l'échantillon est de trop petite taille. En effet, les deux familles de méthodes impliquent de fixer un paramètre de régularisation de façon à obtenir un estimateur optimal. Or, il n'existe pas de manière analytique de fixation du paramètre de régularisation. De plus, les méthodes 15 précédentes s'avèrent coûteuse en temps de calcul quand le nombre de variables est très grand. La deuxième problématique relative au partitionnement se pose après la première problématique du calcul de la matrice de covariance. De fait, la covariance calculée peut être représentée par un graphe et la construction du graphe ne présente pas de difficulté 20 particulière. Deux sommets (variables) sont connectés sur le graphe si leur covariance est non nulle. La deuxième problématique est celle de l'identification des groupes de sommets connectés sur le graphe (partitionnement de graphe). Pour cela, de nombreuses approches sont envisageables. A titre d'exemple, les méthodes spectrales reposent sur la définition d'une mesure de similarité sur l'espace des sommets du graphe à partir des 25 vecteurs propres du Laplacien du graphe qui est utilisée pour partitionner le graphe avec un algorithme de type k-moyenne (souvent désigné sous sa dénomination anglaise de « k-means ») par exemple. Toutefois, toutes ces méthodes sont coûteuses en terme de temps et imposent le plus souvent de fixer a priori le nombre de classes, ce qui limite la qualité des 30 partitionnements obtenus. Il existe donc un besoin pour un procédé d'identification d'une relation entre des éléments physiques permettant de surmonter les inconvénients précédents. A cet effet, il est proposé un procédé d'identification d'une relation entre des éléments physiques, lesdits éléments présentant éventuellement une activité mesurable, 35 le procédé comprenant l'étape de fournir des données, les données comprenant une grandeur représentative des éléments physiques ou de leur activité pour une pluralité 3021776 4 d'individus, l'étape d'estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité à partir des données fournies, l'étape d'associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments physiques et des liens entre les sommets lorsque la 5 valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée. Le procédé comporte également l'étape d'obtenir des coeurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un coeur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le 10 coeur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le coeur, l'étape de définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage. Le procédé comporte également, pour 15 chaque valeur de seuillage de la pluralité de valeurs de seuillage, une étape d'obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque coeur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres 20 sommets de la même classe qu'avec les sommets d'une autre classe, Le procédé comprend aussi une étape de sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère. L'originalité du procédé d'identification d'une relation proposé réside notamment dans le fait que les deux problématiques de calcul de la matrice de covariance et de 25 partitionnement du graphe sont traitées conjointement. Ainsi, d'une part il est suggéré d'analyser l'évolution de la structure du graphe en fonction d'une valeur de seuillage et de choisir la matrice de covariance et le graphe associé en se basant sur des critères portant sur le graphe (densité, répartition des degrés...) et sur son partitionnement (modularité, nombre de classes, stabilité des 30 classes...). D'autre part, la partition du graphe repose sur la sélection de coeurs qui sont un ensemble de sommets fortement connectés sur les graphes, c'est-à-dire par des liens de fort poids (covariance). De ce fait, la méthode de partitionnement des graphes prend en compte la partie la plus fiable de l'information contenue dans la matrice de covariance. Le procédé d'identification d'une relation s'applique à des données de très grande 35 dimension (plusieurs milliers de variables). En outre, le nombre de classes n'est pas fixé, de même que la valeur du paramètre de seuillage.
3021776 5 Selon un mode de réalisation préféré, le procédé d'identification permet d'analyser l'évolution des graphes en fonction du choix de la valeur de seuillage en deux temps. Dans un premier temps, il est recherché les coeurs de classes en augmentant pas à pas la valeur de seuillage de façon à "effeuiller" progressivement le graphe et à identifier des 5 petits ensembles de sommets stables au sein des différentes composantes connexes des graphes. Dans un deuxième temps, en baissant progressivement la valeur de seuillage, les sommets du graphe sont progressivement reconnectés pour pouvoir leur attribuer une classe définie autour d'un coeur. Le procédé d'identification d'une relation permet finalement de choisir la matrice 10 de covariance et le graphe associé qui présente la structure d'interaction la plus claire et la plus stable. En particulier, la procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux d'expression dans les échantillons considérés, ou présentant des profils d'expression 15 similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés. La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de régulation mis en oeuvre au cours du processus de synthèse d'un produit de gène 20 fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN 25 messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines. Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui 30 sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle. Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.
35 Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes.
3021776 6 Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues. Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble 5 contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes coexprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut permettre d'identifier la fonction putative de certains gènes.
10 Suivant des modes de réalisation particuliers, le procédé d'identification d'une relation entre des éléments physiques comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible : à l'étape d'obtenir des coeurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante. 15 l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante. l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation. 20 l'étape d'obtenir des coeurs met en oeuvre un algorithme de parcours en profondeur. la répartition finale comporte moins de classes que le nombre de coeurs obtenus. le nombre d'éléments physiques est supérieur ou égal à 1000, de manière 25 préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000. le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50. 30 le procédé d'identification d'une relation étant mis en oeuvre par ordinateur. les éléments physiques sont des gènes, des ARN, des protéines ou des métabolites. les individus sont des individus biologiques tels que des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des 35 humains.
3021776 7 Il est également proposé un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite 5 pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'une cible thérapeutique comprend également l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que 10 précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé comporte aussi l'étape de 15 comparer la première répartition et la deuxième répartition, et l'étape de sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement. Il est aussi proposé un procédé d'identification d'un biomarqueur diagnostique, de 20 susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le procédé d'identification d'un biomarqueur comprend l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins 25 un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'un biomarqueur comprend également l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne 30 souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé d'identification d'un biomarqueur comporte aussi l'étape de comparer la première répartition et la deuxième 35 répartition, et de sélectionner comme biomarqueur le gène, ou une expression du gène, si 3021776 8 les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement. Il est également proposé un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou 5 le traitement d'une pathologie, le procédé comprenant l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de 10 la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé de criblage d'un composé comporte aussi l'étape de mettre en oeuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite 15 pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé de criblage 20 d'un composé comprend aussi l'étape de comparer la première répartition et la deuxième répartition, et l'étape de sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement. Il est aussi proposé un produit programme d'ordinateur comportant un support 25 lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de données et adapté pour entraîner la mise en oeuvre d'un procédé tel que précédemment décrit lorsque le programme d'ordinateur est mis en oeuvre sur l'unité de traitement des données.
30 D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit de modes de réalisation de l'invention, donnée à titre d'exemple uniquement et en référence aux dessins qui sont : - figure 1, une vue schématique d'un exemple de système permettant la mise en oeuvre d'un procédé d'identification d'une relation entre des éléments 35 physiques, 3021776 9 figure 2, un ordinogramme d'un exemple de mise en oeuvre d'un procédé d'identification d'une relation entre des éléments physiques, figures 3 à 6, des vues schématiques d'une pluralité de graphes pour différentes valeurs de seuillage, 5 figure 7, un ordinogramme d'un exemple de mise en oeuvre d'un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, figure 8, un ordinogramme d'un exemple de mise en oeuvre d'un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique 10 d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, et figure 9, un ordinogramme d'un exemple de mise en oeuvre d'un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie.
15 Un système 10 et un produit programme d'ordinateur 12 sont représentés à la figure 1. L'interaction du produit programme d'ordinateur 12 avec le système 10 permet de mettre en oeuvre un procédé d'identification d'une relation entre des éléments physiques. Le système 10 est un ordinateur.
20 Plus généralement, le système 10 est un calculateur électronique propre à manipuler et/ou transformer des données représentées comme des quantités électroniques ou physiques dans des registres du système 10 et/ou des mémoires en d'autres données similaires correspondant à des données physiques dans des mémoires, des registres ou d'autres types de dispositifs d'affichage, de transmission ou de 25 mémorisation. Le système 10 comporte un processeur 14 comprenant une unité de traitement de données 16, des mémoires 18 et un lecteur 20 de support d'informations. Le système 10 comprend également un clavier 22 et une unité d'affichage 24. Le produit programme d'ordinateur 12 comporte un support lisible 30 d'informations 20. Un support lisible d'informations 20 est un support lisible par le système 10, usuellement par l'unité de traitement de données 14. Le support lisible d'informations 20 est un médium adapté à mémoriser des instructions électroniques et capables d'être couplé à un bus d'un système informatique.
35 A titre d'exemple, le support lisible d'informations 20 est une disquette ou disque souple (de la dénomination anglaise de « floppy disk »), un disque optique, un CD-ROM, 3021776 10 un disque magnéto-optique, une mémoire ROM, une mémoire RAM, une mémoire EPROM, une mémoire EEPROM, une carte magnétique ou une carte optique. Sur le support lisible d'informations 20 est mémorisé un programme d'ordinateur comprenant des instructions de programme.
5 Le programme d'ordinateur est chargeable sur l'unité de traitement de données 14 et est adapté pour entraîner la mise en oeuvre d'un procédé d'identification d'une relation entre des éléments physiques lorsque le programme d'ordinateur est mis en oeuvre sur l'unité de traitement des données 14. Le fonctionnement du système 10 en interaction avec le produit programme 10 d'ordinateur 12 est maintenant décrit en référence à la figure 2 qui illustre un exemple de mise en oeuvre d'un procédé d'identification d'une relation entre des éléments physiques. Un élément est un élément physique lorsque l'élément appartient à la réalité. Par exemple, les atomes sont les éléments physiques. L'étude statistique des états de spin d'un ensemble d'atomes est d'intérêt aussi bien pour de la spintronique que 15 pour des problématiques de condensation de la matière. Selon un autre exemple, les étoiles sont les éléments physiques. La quantité de l'émission d'une particule particulière pour différentes étoiles peut notamment être comparée. Selon un autre exemple, les particules émises par une étoile sont les éléments 20 physiques. L'étude des particules émises par une étoile permet de déterminer une information sur l'état de l'étoile considérée de manière statistique. Dans le reste de la description, il est plus spécifiquement considéré des exemples d'éléments physiques appartenant au domaine de la biologie, sans que ces exemples soient une limitation du présent procédé.
25 Notamment, selon un mode de réalisation préféré, les éléments physiques sont des éléments biologiques. Par exemple, les éléments physiques peuvent être des gènes, des ARN, en particulier des ARN messagers, des protéines ou des métabolites. Le procédé d'identification d'une relation est d'autant plus avantageux que le nombre d'éléments physiques considérés est important de sorte que les éléments 30 physiques constituent de préférence des ensembles de grandes dimensions. Par exemple, le nombre d'éléments physiques est supérieur ou égal à 1000, de préférence supérieur ou égal à 2000, de préférence supérieur ou égal à 3000, de préférence supérieur ou égal à 4000, de préférence supérieur ou égal à 5000, de préférence supérieur ou égal à 6000, de préférence supérieur ou égal à 7000, de 35 préférence supérieur ou égal à 8000, de préférence supérieur ou égal à 9000, de préférence supérieur ou égal à 10000.
3021776 11 Il est entendu par le terme relation un lien ou un rapport existant entre deux éléments. Le procédé d'identification d'une relation comporte une étape 50 de fourniture de données relatives à une pluralité d'individus. Les données pour un individu particulier 5 comprennent une grandeur représentative de chacun des éléments physiques. A titre d'exemple particulier, la grandeur représentative d'un élément physique peut être la quantité de l'élément physique. Par exemple, la grandeur représentative d'une protéine dans un échantillon donné peut être la quantité de cette protéine dans cet échantillon. Ainsi, dans un tel cas particulier, à titre d'illustration, une première protéine 10 aurait un poids de 15 kilodaltons, une deuxième protéine aurait un poids de 10 kilodaltons, une troisième protéine aurait un poids de 12 kilodaltons. A travers l'exemple particulier proposé, il apparaît que, par grandeur représentative d'un élément physique, il est entendu tout type de grandeur mesurable qui caractérise l'élément physique. Une grandeur représentative d'un élément physique est 15 donc exprimable sous la forme d'une quantité. Selon un mode de réalisation particulier, la grandeur considérée est représentative de l'activité d'un élément physique. En particulier, pour l'exemple précédent de l'atome, le spin est une grandeur représentative.
20 Selon un autre exemple, pour le cas où les particules émises par une étoile sont les éléments physiques, la quantité de particules émises est une grandeur représentative. Similairement, pour l'exemple des étoiles, la quantité de la particule particulière émise par chacun des étoiles est une grandeur représentative. L'activité d'un élément physique représente l'ensemble des effets produits par 25 l'élément physique considéré. Notamment, lorsque l'élément physique est un gène, l'activité de l'élément physique peut désigner l'expression dudit gène. L'expression d'un gène peut en particulier être quantifiée en mesurant la quantité d'ARN messager produit par le processus de transcription à partir dudit gène, ou en mesurant la quantité de protéine produite par les processus de transcription et de traduction à partir dudit gène.
30 La grandeur représentative de l'activité d'un élément physique peut être la quantité d'un produit résultant de l'activité de l'élément physique. Par exemple, la grandeur représentative de l'activité d'un gène peut être la quantité d'ARN messagers produit par le processus de transcription à partir dudit gène. Selon un autre exemple, la grandeur représentative de l'activité d'un ARN messager peut être la quantité de 35 protéines produites par le processus de traduction à partir dudit ARN messager.
3021776 12 Il est entendu par le terme individu un élément statistique d'un ensemble plus large appelé « population », et pour lequel la valeur de la grandeur représentative de chacun des éléments physiques, ou de leur activité, est fournie à l'étape 50 de fourniture. Dans le cas de l'exemple des atomes, la pluralité d'individus est une pluralité 5 d'atomes. Pour l'exemple de particules émises par une même étoile, la pluralité d'individus peuvent être des émissions à des instants temporels distincts. Pour le cas où une pluralité d'étoiles est considérée, la pluralité d'individus est, de préférence, la pluralité d'étoiles.
10 Selon un mode de réalisation particulier, l'individu peut être un individu biologique tel que, par exemple, un animal. De préférence, l'individu est un mammifère. De manière encore plus préférentielle, l'individu est un humain. Le procédé d'identification d'une relation est d'autant plus avantageux que le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou 15 égal à 10, de préférence supérieur ou égal à 20, de préférence supérieur ou égal à 30, de préférence supérieur ou égal à 40, de préférence supérieur ou égal à 50, de préférence supérieur ou égal à 60, de préférence supérieur ou égal à 70, de préférence supérieur ou égal à 80, de préférence supérieur ou égal à 90, de préférence supérieur ou égal à 100, de préférence supérieur ou égal à 200.
20 Alternativement ou de manière complémentaire, le nombre d'individus peut être inférieur ou égal à 200, de préférence inférieur ou égal à 100. Les données comprennent ainsi, pour une pluralité d'individus, les différentes valeurs d'une grandeur représentative choisie pour chaque élément physique. Comme expliqué précédemment, selon un mode de réalisation particulier, le nombre de grandeurs 25 représentatives fournies est supérieur ou égal à 1000 pour chaque individu considéré. Les données fournies à l'étape 50 de fourniture peuvent être obtenues par n'importe quel moyen. En particulier, les données peuvent être obtenues par une analyse de type « omique », par exemple par une analyse génomique, transcriptomique, protéomique, ou métabolomique. Les techniques permettant d'obtenir des données de 30 type « omique » sont bien connues de l'homme du métier et comprennent par exemple celles des puces à ADN, de la PCR quantitative ou du séquençage systématique d'ADN, d'ARN ou d'ADN complémentaires. Dans un mode de réalisation particulier, les données fournies à l'étape 50 de fourniture ont été obtenues à partir d'un échantillon biologique de l'individu, tel qu'un ou 35 plusieurs organe(s), tissu(s), cellule(s) ou fragment(s) de cellule(s) de l'individu.
3021776 13 A l'issue de l'étape 50 de fourniture, des données comprenant une grandeur représentative des éléments physiques pour une pluralité d'individus ont été fournies. D'un point de vue mathématique, les données fournies correspondent au cas de n réalisations (n individus) de p variables aléatoires X1, Xp (p grandeurs représentatives).
5 Dans ce contexte, n et p sont deux entiers. Pour la suite, dans un souci de simplification du propos, à titre illustratif, il est supposé que les variables aléatoires X1, Xp sont centrées. Le procédé comporte une étape 52 de représentation des données fournies sous forme matricielle pour obtenir une matrice de données notée X dont l'élément de la ligne i 10 et de la colonne j est la valeur de la i-ième grandeur représentative X, pour la j-ième réalisation. Le procédé comporte une étape 54 d'estimation de la matrice de covariance E entre les différentes grandeurs représentatives à partir de la matrice de données. En théorie des probabilités et en statistique, la matrice de variance-covariance ou 15 plus simplement matrice de covariance d'une série de p variables aléatoires X1, Xp réelles est la matrice carrée dont l'élément de la ligne i et de la colonne j est la covariance des variables X, et X. Une telle matrice permet de quantifier la variation de chaque variable par rapport à chacune des autres. Selon un mode de réalisation, l'étape 54 d'estimation comporte une sous-étape de 20 calcul. A titre d'exemple, à la sous-étape de calcul, il est calculé la matrice de covariance empirique S. Par définition, S est le produit de l'inverse de l'entier n par le produit matriciel de la matrice de données X par la transposée de la matrice de données X. Ceci s'écrit mathématiquement : 1 S= -.X*Xt n 25 où : - « . » désigne l'opération mathématique de multiplication par un scalaire, - « * » désigne l'opération mathématique de multiplication matricielle, et - X' désigne la transposée de la matrice de données X. Selon un autre exemple, à la sous-étape de calcul, il est calculé la matrice de 30 corrélation de Spearman. Selon un autre mode de réalisation, l'étape 54 d'estimation comporte une sous-étape de régularisation.
3021776 14 La sous-étape de régularisation permet de forcer des valeurs de la matrice de covariance à être nulles pour obtenir une matrice creuse (c'est-à-dire une matrice comprenant beaucoup de zéros). Par exemple, la sous-étape de régularisation est appliquée à la matrice de 5 covariance empirique S calculée à la sous-étape de calcul, pour obtenir une matrice de covariance régularisée Sréguiarisée- Selon un cas particulier, la sous-étape de régularisation est mise en oeuvre en utilisant une valeur de seuillage X, la valeur de seuillage X étant positive ou nulle. Plus précisément, pour obtenir la matrice régularisée de covariance empirique Srégularisée, toutes 10 les valeurs de la matrice de covariance empirique S dont la valeur en valeur absolue est strictement inférieure à la valeur de seuillage X sont mises à 0. La valeur de seuillage X étant une variable, la matrice régularisée de covariance empirique Srégularisée est une fonction de la valeur de seuillage X. Notamment, lorsque la valeur de seuillage X est nulle, la matrice régularisée de covariance empirique Srégularisée 15 est la matrice de covariance empirique S. A contrario, lorsque la valeur de seuillage tend vers l'infini, la matrice régularisée de covariance empirique Srégularisée tend vers la matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls. Une telle sous-étape de régularisation est particulièrement avantageuse lorsque l'entier p est grand ou que l'entier p est supérieur à l'entier n. En effet, dans de tels cas, la 20 matrice régularisée de covariance empirique Srégularisée est un estimateur de meilleure qualité que la matrice de covariance empirique S, la fonction de la valeur de seuillage permettant d'éliminer les valeurs trop faibles non significatives. Cela provient notamment du fait qu'il peut exister du bruit dans les données fournies et qu'il existe un risque d'existence d'un ou plusieurs faux positifs.
25 Optionnellement, l'étape 54 d'estimation comporte également une sous-étape de normalisation pour obtenir une matrice normalisée. Par exemple, la sous-étape de normalisation est appliquée à la matrice de covariance empirique S. Selon un mode de réalisation préféré, la sous-étape de normalisation est mise en 30 oeuvre en calculant le produit matriciel suivant : R = D1 * S * D1 7)- où : - R désigne la matrice normalisée, et 3021776 15 - Dl désigne la matrice diagonale des écarts-types. Par définition, la matrice a diagonale des écarts-types Di est une matrice diagonale dont le i-ième a terme de la diagonale est égal à l'inverse de l'écart-type de la i-ième variable X,, i étant un entier variant entre 1 et l'entier p.
5 En statistique, la corrélation de deux variables A et B est égale au rapport entre, d'une part, la covariance entre lesdites deux variables A et B et, d'autre part, le produit de l'écart-type de la première variable A par l'écart-type de la deuxième variable B. Il en résulte que la matrice normalisée R correspond à la matrice des corrélations empiriques. Selon les cas, l'étape 54 d'estimation comporte ainsi une sous-étape de calcul, ou 10 la combinaison d'une sous-étape de calcul et d'une sous-étape de régularisation ou la combinaison d'une sous-étape de calcul et d'une sous-étape de normalisation, ou une combinaison des sous-étapes de calcul, de régularisation et de normalisation. Dans le cas où les trois sous-étapes sont mises en oeuvre, l'ordre de mise en oeuvre des sous-étapes de régularisation et de normalisation est indifférent. En outre, il 15 est obtenu une matrice régularisée des corrélations empiriques Rrégulansée et la valeur de seuillage est comprise entre 0 et 1. Dans la suite de la description, une valeur Y est comprise entre deux valeurs a et b lorsque, d'une part, la valeur Y est supérieure ou égale à la valeur a et d'autre part, la valeur Y est inférieure ou égale à la valeur b. Comme pour le cas de la matrice régularisée de covariance empirique Srégularisée, la 20 valeur de seuillage X étant une variable, la matrice régularisée des corrélations empiriques Rrégulansée est une fonction de la valeur de seuillage X. Notamment, lorsque la valeur de seuillage X vaut 0, la matrice régularisée des corrélations empiriques Rrégulansée est égale à la matrice des corrélations empiriques R. A contrario, lorsque la valeur de seuillage X vaut 1, la matrice régularisée des corrélations empiriques Rrégulansée tend vers la 25 matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls. A l'issue de l'étape 54 d'estimation, il est obtenu une matrice de covariance estimée Ê regroupant les valeurs estimées de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité. En variante, il est obtenu une matrice de corrélation de Spearman lorsque la dépendance entre les variables est non 30 linéaire. A titre d'exemple, pour la suite, il est supposé que la matrice de covariance estimée 2 est la matrice régularisée des corrélations empiriques Rrégulansée, c'est-à-dire que = Rréguiarisée- Le procédé d'identification d'une relation comporte également une étape 56 35 d'association d'un graphe G2,, à une valeur de seuillage X.
3021776 16 Par définition, un graphe G2, est associé à une valeur de seuillage X lorsque le graphe G2, comprend des sommets représentatifs des éléments physiques, et des liens entre les sommets lorsque la valeur de la covariance estimée entre les sommets considérés est supérieure ou égale à la valeur de seuillage X considérée.
5 Un graphe G2, est une représentation graphique de la valeur de la covariance estimée par rapport à une valeur de seuillage X donnée. Cela signifie que les seuls liens visibles sur un graphe G2, sont les liens présentant une valeur de la covariance estimée relativement grande. Dans le cas particulier de la figure 2, le graphe G2, comporte des liens entre les 10 sommets lorsque la valeur de la matrice régularisée des corrélations empiriques Rrégulansée relatives aux sommets considérés est supérieure ou égale à la valeur de seuillage considérée. Ainsi, lorsque la valeur de seuillage X vaut 0, le graphe Go est un graphique dont tous les sommets sont reliés à tous les autres sommets. A contrario, lorsque la valeur de 15 seuillage X vaut 1, le graphe G1 est un graphique dont tous les sommets sont isolés, c'est- à-dire qu'il n'existe aucun lien entre les sommets. Plus précisément, il apparaît que la fonction qui associe à la valeur de seuillage le nombre de liens à générer dans le graphe G2, associé à la valeur de seuillage X est une fonction décroissante depuis la valeur du nombre de liens dans le graphe Go jusqu'à 0.
20 A titre d'illustration, les figures 3 à 6 illustrent chacune les graphes associés à différentes valeurs de seuillage pour un exemple particulier. La figure 3 illustre un premier graphe G21 associé à une première valeur de seuillage . Le premier graphe G2,1 comporte les mêmes treize sommets, chaque sommet étant représenté par un point sur la figure. De plus, chaque sommet est référencé 25 par un signe de référence sous la forme Si où i est le numéro du sommet. Par exemple, le deuxième sommet est référencé S2 et le septième sommet est référencé S7. Dans le premier graphe G21, il existe seize liens entre les treize sommets 51 à S13. Ainsi, le premier sommet 51 est relié au cinquième sommet S5 via un premier lien 11_ 5. Le deuxième sommet S2 est relié au cinquième sommet S5 via un deuxième lien 12_5. Le 30 troisième sommet S3 est relié au quatrième sommet S4 via un troisième lien 13_4 et au septième sommet S7 via un quatrième lien 13_7. Le quatrième sommet S4 est relié au troisième sommet S3 via le troisième lien 13_4, au cinquième sommet S5 via un cinquième lien 14_5, au septième sommet S7 via un sixième lien 14_7 et au huitième sommet S8 via un septième lien 14_8. Le cinquième sommet S5 est relié au quatrième sommet S4 via le 35 cinquième lien 14_5, au huitième sommet S8 via un huitième lien 15_8 et au neuvième 3021776 17 sommet S9 via un neuvième lien 15_9. Le sixième sommet S6 est relié au septième sommet S7 via un dixième lien 16_7. Le septième sommet S7 est relié au troisième sommet S3 via le quatrième lien 13_7, au quatrième sommet S4 via le troisième lien 13_4, au huitième sommet S8 via un onzième lien 17_8, au sixième sommet S6 via le dixième lien 16_7 et au onzième 5 sommet Si 1 via un douzième lien 17.12. Le huitième sommet S8 est relié au quatrième sommet S4 via le septième lien 14_8, au cinquième sommet S5 via le huitième lien 15_8, au septième sommet S7 via le onzième lien 17_8, au neuvième sommet S9 via un treizième lien 18_9 et au douzième sommet S12 via un quatorzième lien 18_12. Le neuvième sommet S9 est relié au cinquième sommet S5 via le neuvième lien 15_9, au huitième sommet S8 via le 10 treizième lien 18_9, au dixième sommet S10 via un quinzième lien 19.10 et au treizième sommet S13 via un seizième lien 19_16. Le dixième sommet S10 est relié au neuvième sommet S9 via le quinzième lien 19_10. Le onzième sommet S11 est relié au septième sommet S7 via le douzième lien 17.12. Le douzième sommet S12 est relié au huitième sommet S8 via le quatorzième lien 18_12. Le treizième sommet S13 est relié au neuvième 15 sommet S9 via le seizième lien 19.16. Cela signifie que le premier lien 11_5, le deuxième lien 12_5, le troisième lien 13_4, le quatrième lien 13_7, le cinquième lien 14_5 ,le sixième lien 14_7, le septième lien 14_8, le huitième lien 15_8, le neuvième lien 15_9, le dixième lien 16_7, le onzième lien 17_8, le douzième lien 17.12, le treizième lien 18_9, le quatorzième lien 18_12, le quinzième lien 19_10 et le seizième lien 19_16 20 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage Xl. La figure 4 illustre un deuxième graphe G2,2 associé à une deuxième valeur de seuillage X2. La figure 4 étant similaire à la figure 3, seules les différences avec la figure 3 sont détaillées dans ce qui suit.
25 La deuxième valeur de seuillage X2 est plus grande que la première valeur de seuillage X,. En outre, le deuxième graphe G22 ne comporte plus qu'onze liens puisque le troisième lien 13_4, le cinquième lien 14_5, le sixième lien 14_7, le neuvième lien 15_9 et le seizième lien 19.16 ont disparu. Cela montre que le troisième lien 13_4, le cinquième lien 14_5, le sixième lien 14_7, le 30 neuvième lien 15_9 et le seizième lien 19.16 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage X, mais également strictement inférieures à la deuxième valeur de seuillage X2. A contrario, le premier lien 11_5, le deuxième lien 12_5, le quatrième lien 13_7, le septième lien 14_8, le huitième lien 15_8, le dixième lien 16_7, le onzième lien 17_8, le 35 douzième lien 17.12, le treizième lien 18_9, le quatorzième lien 18.12 et le quinzième lien 19-10 3021776 18 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage X2. La figure 5 illustre un troisième graphe G2,3 associé à une troisième valeur de seuillage X3. La figure 5 étant similaire à la figure 4, seules les différences avec la figure 5 5 sont détaillées dans ce qui suit. La troisième valeur de seuillage X3 est plus grande que la deuxième valeur de seuillage X2. En outre, le troisième graphe G2,3 ne comporte plus que sept liens puisque le premier lien 11_5, le quatrième lien 13_7, le dixième lien 16_7 et le quatorzième lien 18_12 ont disparu.
10 Cela montre que le premier lien 11_5, le quatrième lien 13_7, le dixième lien 16_7 et le quatorzième lien 18_12 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage X2 mais également strictement inférieures à la troisième valeur de seuillage X3. A contrario, le deuxième lien 12_5, le septième lien 14_8, le huitième lien 15_8, le onzième lien 17_9, le douzième 15 lien 17_12, le treizième lien 19_9, et le quinzième lien 19_10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieurs à la troisième valeur de seuillage X3. La figure 6 illustre un quatrième graphe G2,4 associé à une quatrième valeur de seuillage X4. La figure 6 étant similaire à la figure 5, seules les différences avec la figure 5 20 sont détaillées dans ce qui suit. La quatrième valeur de seuillage X4 est plus grande que la troisième valeur de seuillage X3. En outre, le quatrième graphe G2,4 ne comporte plus que trois liens puisque le deuxième lien 12_5, le septième lien 14_8, le douzième lien 17_12 et le quinzième lien 19_10 ont disparu.
25 Cela montre que le deuxième lien 12_5, le septième lien 14_8, le douzième lien 17_12 et le quinzième lien 19.10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la troisième valeur de seuillage X3 mais également strictement inférieures à la quatrième valeur de seuillage X4. A contrario, le huitième lien 15_8, le onzième lien 17_9, et le treizième lien 19_9 correspondent chacun à des 30 valeurs de covariance estimée entre les sommets considérées qui sont strictement supérieurs à la quatrième valeur de seuillage X4. Les figures 3 à 6 illustrent que la fonction qui associe à la valeur de seuillage X le nombre de liens à générer dans le graphe G1 associé à la valeur de seuillage X est une fonction décroissante. En effet, à la première valeur de seuillage X1, est associée la valeur 35 de seize ; à la deuxième valeur de seuillage X2, est associée à la valeur de onze ; à la 3021776 19 troisième valeur de seuillage X3, est associée à la valeur de sept et à la quatrième valeur de seuillage X4 est associée à la valeur de quatre. Selon un autre mode de réalisation, les liens sur le graphe sont pondérés par l'intensité des corrélations. La matrice de pondération ou matrice des poids des liens est 5 la matrice regroupant les valeurs absolues de la matrice obtenue à l'issue de la mise en oeuvre de l'étape 54 d'estimation. Le procédé d'identification d'une relation comprend une étape 58 d'obtention de coeurs. Par définition, un coeur est un ensemble de sommets d'un graphe vérifiant trois 10 propriétés : la première propriété P1, la deuxième propriété P2 et la troisième propriété P3. Selon la première propriété P1, le nombre de sommets du coeur est supérieur ou égal à un nombre fixé a. De préférence, le nombre fixé a est supérieur ou égal à 3, préférentiellement 15 supérieur ou égal à 5. De préférence le nombre fixé a est supérieur ou égal à 15, préférentiellement supérieur ou égal à 10. Selon la deuxième propriété P2, il existe une valeur de seuillage X pour laquelle le coeur est une composante connexe du graphe G1 associé à la valeur de seuillage X.
20 En théorie des graphes, un graphe non orienté est dit connexe si quels que soient les sommets considérés, il existe une chaîne de liens depuis le premier sommet vers le deuxième sommet. Un sous-graphe connexe maximal d'un graphe non orienté quelconque est une composante connexe de ce graphe. Selon la troisième propriété P3, il n'existe pas d'autres composantes connexes 25 d'un graphe dont la taille est supérieure ou égale au nombre fixé et qui soit incluse dans le coeur. Autrement formulé, il est permis qu'il existe des composantes connexes présentant moins de sommets que le nombre fixé soit incluse dans le coeur. Il est également permis que des composantes connexes présentant plus ou autant de sommets 30 que le nombre fixé existent mais chacune de ces composantes connexes doit soit être incluse dans le coeur soit ne partager aucun sommet avec le coeur. Une telle propriété P3 est à vérifier pour toutes les valeurs de seuillage X. Selon une autre manière de présenter une telle notion, un coeur de classe est un ensemble de sommets, de taille minimale fixée, pouvant tous être reliés par des chemins 35 fiables impliquant des liens de poids (covariance) suffisamment importants. Ces chemins, qui font le lien entre les sommets d'un coeur, sont stables sur les graphes lorsque l'on 3021776 20 augmente le paramètre de seuillage et ce, jusqu'à un niveau assez élevé. Les sommets n'appartenant pas à un coeur sont au contraire plus rapidement isolés (aucun lien avec les autres sommets) sur le graphe à mesure que le paramètre de seuillage est augmenté. L'étape 58 d'obtention de coeurs est mise en oeuvre par analyse de l'évolution des 5 graphes en fonction de la variation de la valeur de seuillage. Pour cela, il est utilisé une pluralité de valeurs de seuillage. Selon l'exemple proposé en référence aux figures 3 à 6, il est proposé quatre valeurs de seuillage X1, X2, X3 et X4. La comparaison des figures 3 à 6 permet de montrer que le coeur comprend dans ce cas les quatre sommets suivants : le cinquième sommet S5, le septième sommet S7, 10 le huitième sommet S8 et le neuvième sommet S9. De préférence, la première pluralité de valeurs de seuillage est utilisée de manière croissante, c'est-à-dire en considérant d'abord la plus petite valeur, puis la valeur la plus petite des valeurs restantes jusqu'à considérer la plus grande valeur. Préférentiellement, l'étape 58 d'obtention de coeurs est mise en oeuvre avec un 15 algorithme de parcours en profondeur. Par exemple, on fixe le nombre de sommets minimum a d'un coeur, une valeur de seuillage minimale 24,, et un paramètre P pour l'incrémentation de la valeur de seuillage. On commence par extraire les N composantes connexes du graphe Gamin dont le nombre de sommets est supérieur au nombre fixé a. N est un nombre entier. L'extraction 20 des composantes connexes est obtenue par mise en oeuvre d'un algorithme de parcours en profondeur. Tant que l'entier N est différent de 0, les étapes suivantes sont réitérées : 1) incrémenter la valeur de seuillage de l'itération précédente en additionnant le paramètre P pour obtenir une valeur de seuillage de calcul 21. -calcul, 25 2) extraction des N composantes connexes du graphe GIcalcul dont le nombre de sommets est supérieur au nombre fixé a. 3) définition des coeurs, un coeur étant une composante connexe du graphe GIcalcul-pas (le graphe associé à la valeur de seuillage de l'itération précédente qui est, par définition de la valeur de seuillage de calcul k -calcul, la différence 30 entre la valeur de seuillage de calcul 21. -calcul et le paramètre P) dont l'intersection avec chacune des composantes connexes extraites à l'étape 2 d'extraction est nulle. L'ensemble des valeurs de seuillage utilisées forment une pluralité de valeurs de seuillage.
3021776 21 Le procédé d'identification d'une relation comporte une étape 60 de définition des graphes candidats. Chaque graphe candidat est un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage.
5 Selon l'exemple proposé, les graphes candidats sont le premier graphe G21, le deuxième graphe G22, le troisième graphe G22 et le quatrième graphe Gao. Le procédé d'identification d'une relation comporte également une étape 62 d'obtention des répartitions associées à chaque valeur de seuillage de la pluralité de valeurs de seuillage.
10 Il est entendu par le terme répartition associée à une valeur de seuillage X un partitionnement en une ou plusieurs classes des sommets du graphe G2,, associé à la valeur de seuillage X considérée. Une classe est un ensemble de sommets. Pour la suite, une telle répartition est notée RI. Selon l'exemple considéré, quatre répartitions R21, Rat, Rai et R2,4 sont donc à 15 obtenir. De préférence, à l'étape 62 d'obtention des répartitions, la pluralité de valeurs de seuillage est utilisée de manière décroissante, c'est-à-dire en considérant d'abord la plus grande valeur, puis la valeur la plus grande des valeurs restantes jusqu'à considérer la plus petite valeur.
20 Chacune des répartitions sont obtenues par une opération d'optimisation distincte. L'optimisation part d'une répartition initiale dans laquelle à chaque coeur est associée une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec 25 les sommets d'une autre classe. De nombreuses manières d'implémenter l'optimisation existent. Notamment, deux manières sont plus précisément décrites dans la suite de la description, sachant que d'autres manières sont accessibles pour l'homme du métier. Selon une première méthode, pour un paramètre de seuillage X donné, le graphe 30 G2,, est partitionné pour obtenir une répartition dans laquelle chaque classe comprend un unique coeur et minimisant le coût ou poids de la coupe, défini par la somme des poids des liens entre les classes. Par définition, la somme des poids des liens entre les classes est définie par la somme de la valeur absolue des liens existant entre un sommet d'une classe et un sommet de l'autre. L'ensemble des sommets et des coeurs considérés pour 35 la répartition est fonction du paramètre de seuillage. Nous ne nous intéressons pas aux 3021776 22 sommets isolés et aux composantes connexes de trop petites tailles. Nous notons V*(X), l'ensemble des sommets contenus dans des composantes connexes du graphe G1 dont le nombre de sommets est supérieur ou égale au nombre fixé a. De telles composantes connexes comprennent au moins un coeur.
5 Pour une valeur de seuillage X fixé, si V*(X) contient K coeurs (K étant un entier positif), Qi, ,QK, alors il est cherché une partition de V*(X) en K classes, Cl, ..., OK, telle que chaque classe Qk soit l'union d'un coeur Qk et d'un ensemble de sommets Sk à la périphérie de ce coeur (pouvant être vide) : Ck = Qk U Sk. Si l'ensemble V*(X) est vide, soit V*(X) = 0, tous les sommets de V sont isolés ou 10 contenus dans des composantes connexes de trop petite taille (strictement inférieure au nombre fixé a) et la question du partitionnement du graphe ne se pose pas. Si l'ensemble V*(X) contient un unique coeur, le partitionnement du graphe est trivial, une seule classe regroupe tous les sommets de V*(X). Quand l'ensemble V*(X) contient plusieurs coeurs, on choisit les sommets Sk 15 autour de ces coeurs de façon à avoir une coupe de poids minimal. On note W(X) la matrice des poids des liens du graphe G1 et S l'ensemble des parties de A = V*(X)\{01, , QK}. Les Si, , SK sont solution du problème d'optimisation suivant : {K argminst,...sx Sk E S et Ck = SK UQk,Vk = 1 ...K k=1iECkiECk La première méthode de partitionnement décrite précédemment garantit le fait qu'un sommet qui n'est pas dans un coeur est plus fortement connecté avec la classe qui 20 lui est attribuée, qu'avec toute autre classe (en faisant l'hypothèse qu'il ne peut pas y avoir égalité). Selon une deuxième méthode plus élaborée, l'optimisation comporte une étape de détermination des coeurs dont un sommet partage plus de lien(s) avec les sommets d'une autre classe qu'avec les sommets de sa classe. Dans un tel cas, les coeurs déterminés ne 25 sont plus considérés comme des coeurs mais comme un ensemble de sommets isolés pouvant chacun appartenir à une classe différente. Cela permet d'éviter les erreurs de classification. Autrement formulé, comme l'on suppose que le coeur de la classe est la partie la plus stable et la plus centrale de la classe (la plus éloignée des autres classes), si un 30 coeur contient au moins un sommet mieux connecté à une autre classe, nous "déclassons" le coeur en considérant les sommets de ce coeur comme étant de simples sommets périphériques et effectuons un nouveau partitionnement du graphe.
3021776 23 D'un point de vue mathématique, il est possible d'implémenter la deuxième méthode en se ramenant à la formulation de la première méthode. En effet, si dans un coeur Q,, on peut trouver un sommet q, moins fortement connecté avec sa classe C,, qu'avec une autre classe Cp, alors on cherche une partition de V*(X) en K - 1 classes en 5 ne considérant plus Q, comme un coeur (A = A U QI) dans le problème d'optimisation posé dans le cadre de la première méthode. On réitère jusqu'à ce que l'ensemble des sommets soient plus fortement connectés à la classe qui leur est attribuée qu'à n'importe quelle autre classe. Selon l'exemple de la figure 2, les étapes 60 de définition des graphes candidats 10 et 62 d'obtention des répartitions sont mises en oeuvre simultanément pour accélérer la mise en oeuvre du procédé d'identification d'une relation. Cela est indiqué sur la figure 2 par le fait que les deux étapes 60 de définition et 62 d'obtention sont au même niveau. Le procédé d'identification d'une relation comporte également une étape 64 de sélection d'un graphe optimal parmi la pluralité de graphes candidats selon au moins un 15 critère. Le ou les critères choisis permettent de sélectionner un graphe candidat correspondant à un bon compromis en terme de densité. En effet, plus un graphe candidat est dense et plus le graphe candidat considéré prend en compte d'information. A contrario, moins le graphe candidat est dense et plus le graphe candidat considéré met en 20 évidence des ensembles de sommets clairement identifiables. De préférence, à l'étape 64 de sélection, au moins deux critères sont utilisés, le premier critère portant sur le graphe et le deuxième critère étant relatif à la répartition associé au graphe. Pour cela, selon un exemple de premier critère, le graphe candidat sélectionné est 25 le graphe dont l'écart entre la distribution des degrés de connectivité et une distribution selon une loi de puissance est minimum. Le degré de connectivité d'un sommet est, par exemple, calculé en sommant les poids associés aux liens du sommet considéré. La distribution selon une loi de puissance est, selon un exemple particulier, une loi 30 de Pareto. La distribution selon une loi de puissance est, selon un autre exemple particulier, une loi de réseau invariant d'échelle. L'écart est, à titre d'illustration, une distance euclidienne. Selon un exemple, le deuxième critère est la modularité. La modularité est un 35 critère comparant la proportion de liens d'une classe d'un graphe avec la proportion 3021776 24 obtenue pour des liens placés au hasard sur le graphe considéré. Seront favorisées les répartitions dont la modularité est grande. Selon un autre exemple, le deuxième critère est le nombre de classes. Seront favorisées les répartitions dont le nombre de classes est maximum.
5 Selon un autre exemple, le deuxième critère est la stabilité du nombre de classes avec la variation de la valeur du seuillage X. Seront favorisées les répartitions dont le nombre de classes est le plus stable. Le procédé d'identification d'une relation permet donc d'obtenir un graphe optimal et une répartition optimale des éléments physiques. L'appartenance à une même classe 10 indique qu'il existe une relation entre les éléments physiques étudiés. Pour obtenir une telle information, le procédé d'identification permet une meilleure détermination du graphe et de la répartition que les procédés de l'état de la technique dans la mesure où de tels procédés n'effectuent pas d'optimisation sur le graphe lors du partitionnement en classes du graphe.
15 Le procédé d'identification d'une relation permet par conséquent d'identifier des ensembles d'éléments physiques ayant une relation entre eux sur la base de la grandeur représentative considérée. En particulier, le procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux 20 d'expression dans les échantillons considérés, ou présentant des profils d'expression similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés. La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de 25 régulations mis en oeuvre au cours du processus de synthèse d'un produit de gène fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression 30 d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines. Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou 35 fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle.
3021776 25 Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.
5 Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes. Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues.
10 Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes coexprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut 15 permettre d'identifier la fonction putative de certains gènes. Selon un mode de réalisation préféré, le procédé d'identification d'une relation comporte également une étape dans laquelle les classes obtenues dans la répartition optimale sont ordonnées. Pour cela, chaque classe de la répartition optimale est associée de manière 20 biunivoque à une valeur de la grandeur représentative. De ce fait, une telle valeur est une valeur synthétique qui résume la classe considérée. Une telle association est obtenue par différentes méthodes. Par exemple, il est choisi la variable la plus significative dans la classe selon un critère, un tel critère pouvant être la centralité ou le degré de connectivité aux autres 25 sommets. Selon un autre exemple, il est proposé d'utiliser une méthode de réduction de la dimensionnalité de la classe pour en déduire une valeur synthétique. L'analyse en composantes principales est un exemple d'une telle méthode de réduction de dimensionnalité de la classe.
30 Selon encore un autre exemple, la valeur synthétique est une fonction des grandeurs représentatives de chaque variable de la classe. Par exemple, chaque classe de la répartition optimale est associée à la valeur moyenne de l'ensemble des grandeurs représentatives des sommets que comporte la classe considérée. La valeur moyenne est, par exemple, une valeur moyenne 35 arithmétique, une valeur moyenne géométrique ou une valeur moyenne pondérée par des 3021776 26 coefficients liés à l'intensité des corrélations entre les sommets considérés.De préférence, la fonction est une fonction linéaire. Selon un autre mode de réalisation, il est également possible de mettre en oeuvre de la régression pour modéliser la grandeur représentative à partir des classes de 5 variables elles-mêmes et de sélectionner les classes ou les variables les plus significatives dans le modèle. Cela permet de faciliter l'exploitation de la répartition optimale et du graphe optimal obtenus à l'issue de la mise en oeuvre du procédé d'identification d'une relation. En outre, cela rend également le procédé d'identification d'une relation exploitable 10 pour la mise en oeuvre d'autres procédés illustrés en référence aux ordinogrammes des figures 7, 8 et 9. De tels procédés peuvent également être mis en oeuvre à l'aide du système 10 proposé à la figure 1 pourvu d'adapter les instructions de programme du produit programme d'ordinateur pour que, lorsque le programme d'ordinateur est mis en oeuvre 15 sur l'unité de traitement des données, le programme d'ordinateur entraîne la mise en oeuvre du procédé considéré. Parmi les procédés proposés, en référence à la figure 7, il est considéré un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. Un tel procédé d'identification d'une cible thérapeutique exploite le fait 20 que le procédé d'identification d'une relation permet notamment d'identifier, parmi plusieurs milliers de gènes, d'ARN ou de protéines par exemple, ceux qui sont exprimés de façon différentielle entre un tissu sain et un tissu malade et donc impliqués dans le développement d'une maladie. Par cible thérapeutique d'une pathologie, il est entendu tout élément biologique sur 25 lequel il est possible d'agir pour prévenir et/ou traiter cette pathologie. La cible thérapeutique peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN messager ou une protéine. Le procédé d'identification d'une cible thérapeutique comporte une première étape 30 100 de mise en oeuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 100 de mise en oeuvre du procédé d'identification 35 d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1, comportant des premières classes C1,, i étant un entier variant entre 1 et le 3021776 27 nombre de classes de la première répartition R1, dans lesquelles sont répartis les sommets représentatifs des gènes. La première étape 100 de mise en oeuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les premières classes C1; obtenues dans la 5 première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1; est associée de manière biunivoque à une première valeur Z1, de la grandeur représentative. Le procédé d'identification d'une cible thérapeutique comporte également une deuxième étape 110 de mise en oeuvre du procédé d'identification d'une relation tel que 10 précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 110 de mise en oeuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite 15 deuxième répartition R2, comportant des deuxièmes classes C2,, j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes. La deuxième étape 110 de mise en oeuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les deuxièmes classes C2, obtenues dans la 20 deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2, est associée de manière biunivoque à une deuxième valeur Z2, de la grandeur représentative. De préférence, les première et deuxième étapes 100 et 110 de mise en oeuvre du procédé d'identification d'une relation sont mises en oeuvre simultanément pour diminuer 25 le temps de mise en oeuvre du procédé d'identification d'une cible thérapeutique. Cela est indiqué sur la figure 7 par le fait que les deux étapes 100 et 110 de mise en oeuvre du procédé d'identification d'une relation se trouvent au même niveau. Le procédé d'identification d'une cible thérapeutique comporte également une étape 120 de comparaison de la première répartition R1 et la deuxième répartition R2.
30 Le procédé d'identification d'une cible thérapeutique comporte aussi une étape 130 de sélection comme cible thérapeutique d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1,0 où i0 désigne le numéro de la classe. Ladite première classe 35 C1,0 est associée à une première valeur Z1,0. Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2,0 où j0 désigne le numéro 3021776 28 de la classe. Ladite deuxième classe C2,0 est associée à une deuxième valeur Z2,0. La condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1,0 diffère significativement de la deuxième valeur Z2,0. Il est entendu par l'expression « diffèrent significativement » que la deuxième 5 valeur Z2,0 diffère de la première valeur Z1,0 de plus de 1% de la première valeur Z1,0, de préférence de plus de 5% de la première valeur Z1,0 et préférentiellement de plus de 10% de la première valeur Z1,0. Le procédé d'identification d'une cible thérapeutique permet notamment de déterminer une cible avec efficacité.
10 Parmi les procédés proposés, en référence à la figure 8, il est également considéré un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le biomarqueur peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN 15 messager ou une protéine. Le procédé d'identification d'un biomarqueur comporte une première étape 200 de mise en oeuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative 20 est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 200 de mise en oeuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1, comportant des premières classes C1,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1, dans lesquelles sont répartis les sommets 25 représentatifs des gènes. La première étape 200 de mise en oeuvre du procédé d'identification d'un biomarqueur comporte une sous-étape dans laquelle les premières classes C1; obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1; est associée de manière biunivoque à une 30 première valeur Z1, de la grandeur représentative. Le procédé d'identification d'un biomarqueur comporte également une deuxième étape 210 de mise en oeuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la 35 grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 210 de mise en oeuvre du procédé 3021776 29 d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2J, j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.
5 La deuxième étape 210 de mise en oeuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2, obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2, est associée de manière biunivoque à une deuxième valeur Z2, de la grandeur représentative.
10 De préférence, les première et deuxième étapes 200 et 210 de mise en oeuvre du procédé d'identification d'une relation sont mises en oeuvre simultanément pour diminuer le temps de mise en oeuvre du procédé d'identification d'un biomarqueur. Cela est indiqué sur la figure 8 par le fait que les deux étapes 200 et 210 de mise en oeuvre du procédé d'identification d'une relation se trouvent au même niveau.
15 Le procédé d'identification d'un biomarqueur comporte également une étape 220 de comparaison de la première répartition R1 et la deuxième répartition R2. Le procédé d'identification d'un biomarqueur comporte aussi une étape 230 de sélection comme biomarqueur d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est 20 vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1,0 où i0 désigne le numéro de la classe. Ladite première classe C1,0 est associée à une première valeur Z1,0. Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2,0 où j0 désigne le numéro de la classe. Ladite deuxième classe C2,0 est associée à une deuxième valeur Z2,0. La 25 condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1,0 diffère significativement de la deuxième valeur Z2,0. Il est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2,0 diffère de la première valeur Z1,0 de plus de 1% de la première valeur Z1,0, de préférence de plus de 5% de la première valeur Z1,0 et préférentiellement de plus de 10% 30 de la première valeur Z1,0. Le procédé d'identification d'un biomarqueur permet notamment de déterminer un biomarqueur avec efficacité. Parmi les procédés proposés, en référence à la figure 9, il est également considéré un procédé de criblage d'un composé utile comme médicament, ayant un effet 35 sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. Un tel procédé de criblage d'un composé exploite le fait que le procédé 3021776 30 d'identification d'une relation permet d'identifier, parmi plusieurs milliers de gènes, d'ARN, ou de protéines par exemple, ceux qui sont exprimés de façon différentielle en présence ou en l'absence d'un composé destiné à traiter une maladie. Le procédé d'identification de criblage comporte une première étape 300 de mise 5 en oeuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et ayant reçu le composé, la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible 10 thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre exemple, lorsque la 15 cible thérapeutique est une protéine, les éléments physiques sont des protéines. Une telle première étape 300 de mise en oeuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1, comportant des premières classes C1,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1, dans lesquelles sont répartis les sommets 20 représentatifs des gènes. La première étape 300 de mise en oeuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les premières classes C1; obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1; est associée de manière biunivoque à une première 25 valeur Z1, de la grandeur représentative. Le procédé de criblage comporte également une deuxième étape 310 de mise en oeuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative est la 30 quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont 35 le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre 3021776 31 exemple, lorsque la cible thérapeutique est une protéine, les éléments physiques sont des protéines. Une telle deuxième étape 310 de mise en oeuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition 5 R2, comportant des deuxièmes classes C2J, j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes. La deuxième étape 310 de mise en oeuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2, obtenues dans 10 la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2, est associée de manière biunivoque à une deuxième valeur Z2, de la grandeur représentative. De préférence, les première et deuxième étapes 300 et 310 de mise en oeuvre du procédé d'identification d'une relation sont mises en oeuvre simultanément pour diminuer 15 le temps de mise en oeuvre du procédé de criblage. Cela est indiqué sur la figure 9 par le fait que les deux étapes 300 et 310 de mise en oeuvre du procédé d'identification d'une relation se trouvent au même niveau. Le procédé de criblage comporte également une étape 320 de comparaison de la première répartition R1 et la deuxième répartition R2.
20 Le procédé de criblage comporte aussi une étape 230 de sélection d'un composé susceptible d'être utilisé comme médicament. Le composé est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif de la cible thérapeutique connue dans la première répartition R1 appartient à une première classe C1,0 où i0 désigne le numéro de la classe. Ladite première classe C1,0 est associée à une première valeur Z1,0. Le sommet 25 représentatif de la cible thérapeutique connue dans la deuxième répartition R1 appartient à une deuxième classe C2,0 où j0 désigne le numéro de la classe. Ladite deuxième classe C2,0 est associée à une deuxième valeur Z2,0. La condition de sélection du composé est vérifiée lorsque la première valeur Z1,0 diffère significativement de la deuxième valeur Z2,0.
30 II est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2,0 diffère de la première valeur Z1,0 de plus de 1% de la première valeur Z1,0, de préférence de plus de 5% de la première valeur Z1,0 et préférentiellement de plus de 10% de la première valeur Z1,0. Le procédé de criblage permet notamment de cribler un composé susceptible 35 d'être utilisé comme médicament avec efficacité.
3021776 32 Chacun des procédés proposés peut être mis en rceuvre à l'aide d'un ordinateur quelconque ou tout autre type de dispositif. De multiples systèmes peuvent être utilisés avec des programmes mettant en oeuvre les procédés précédents mais il est également envisageable d'utiliser des appareils dédiés à la mise en oeuvre des procédés précédents, 5 ceux-ci pouvant s'insérer dans les dispositifs propres à mesurer les données fournies. De plus, les modes de réalisation proposés ne sont pas reliés à un langage de programmation particulier. Incidemment, cela implique que de multiples langage de programmation peuvent être utilisés pour mettre en oeuvre un des procédés précédemment détaillés.
10 Les procédés et modes de réalisations décrits ci-dessus sont aptes à être combinés les uns aux autres, totalement ou partiellement, pour donner lieu à d'autres modes de réalisation de l'invention.

Claims (15)

  1. REVENDICATIONS1.- Procédé d'identification d'une relation entre des éléments physiques, lesdits éléments présentant éventuellement une activité mesurable, le procédé comprenant les étapes suivantes : - fournir des données, les données comprenant une grandeur représentative des éléments physiques ou de leur activité pour une pluralité d'individus, - estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité à partir des données fournies, - associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments physiques et des liens entre les sommets lorsque la valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée, - obtenir des coeurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un coeur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le coeur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le coeur, - définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage, - pour chaque valeur de seuillage de la pluralité de valeurs de seuillage, obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque coeur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe, et - sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.
  2. 2.- Procédé selon la revendication 1, dans lequel à l'étape d'obtenir des coeurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante. 3021776 34
  3. 3.- Procédé selon la revendication 1 ou 2, dans lequel à l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante. 5
  4. 4.- Procédé selon l'une quelconque des revendications 1 à 3, dans lequel l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation. 10
  5. 5.- Procédé selon l'une quelconque des revendications 1 à 4, dans lequel l'étape d'obtenir des coeurs met en oeuvre un algorithme de parcours en profondeur.
  6. 6.- Procédé selon l'une quelconque des revendications 1 à 5, dans lequel la répartition finale comporte moins de classes que le nombre de coeurs obtenus.
  7. 7.- Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 6, dans lequel le nombre d'éléments physiques est supérieur ou égal à 1000, de manière préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000.
  8. 8.- Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 7, dans lequel le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50.
  9. 9.- Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 8, le procédé d'identification d'une relation étant mis en oeuvre par ordinateur. 30
  10. 10.- Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 9, dans lequel les éléments physiques sont des gènes, des ARN, des protéines ou des métabolites.
  11. 11.- Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, dans lequel les individus sont des individus biologiques tels que 15 20 25 3021776 35 des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des humains.
  12. 12.- Procédé d'identification d'une cible thérapeutique pour la prévention et/ou le 5 traitement d'une pathologie, le procédé comprenant les étapes suivantes : - mettre en oeuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir 10 une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, - mettre en oeuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la 15 quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative, - comparer la première répartition et la deuxième répartition, et - sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du 20 gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
  13. 13.- Procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, 25 pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, le procédé comprenant les étapes suivantes : - mettre en oeuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la 30 quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, - mettre en oeuvre le procédé selon l'une quelconque des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite 35 pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle 3021776 36 chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative, - comparer la première répartition et la deuxième répartition, et - sélectionner comme biomarqueur le gène, ou une expression du gène, si les 5 sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
  14. 14.- Procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une 10 pathologie, le procédé comprenant les étapes suivantes : - mettre en oeuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité 15 d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, - mettre en oeuvre le procédé d'identification d'une relation selon l'une quelconque 20 des revendications 1 à 11, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième 25 classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative, - comparer la première répartition et la deuxième répartition, et - sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première 30 valeur et la deuxième valeur diffèrent significativement.
  15. 15.- Produit programme d'ordinateur comportant un support lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de 35 données et adapté pour entraîner la mise en oeuvre d'un procédé selon l'une quelconque 3021776 37 des revendications 1 à 14 lorsque le programme d'ordinateur est mis en oeuvre sur l'unité de traitement des données.
FR1454889A 2014-05-28 2014-05-28 Procede d'identification d'une relation entre des elements physiques Withdrawn FR3021776A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1454889A FR3021776A1 (fr) 2014-05-28 2014-05-28 Procede d'identification d'une relation entre des elements physiques
PCT/EP2015/060779 WO2015180972A1 (fr) 2014-05-28 2015-05-15 Procede d'identification d'une relation entre des elements biologiques
EP15722538.4A EP3149638A1 (fr) 2014-05-28 2015-05-15 Procede d'identification d'une relation entre des elements biologiques
US15/314,326 US20170154151A1 (en) 2014-05-28 2015-05-15 Method of identification of a relationship between biological elements

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1454889A FR3021776A1 (fr) 2014-05-28 2014-05-28 Procede d'identification d'une relation entre des elements physiques

Publications (1)

Publication Number Publication Date
FR3021776A1 true FR3021776A1 (fr) 2015-12-04

Family

ID=52473975

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1454889A Withdrawn FR3021776A1 (fr) 2014-05-28 2014-05-28 Procede d'identification d'une relation entre des elements physiques

Country Status (4)

Country Link
US (1) US20170154151A1 (fr)
EP (1) EP3149638A1 (fr)
FR (1) FR3021776A1 (fr)
WO (1) WO2015180972A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019342B2 (en) * 2015-12-24 2018-07-10 Intel Corporation Data flow programming of computing apparatus with vector estimation-based graph partitioning
US20180358125A1 (en) 2017-06-13 2018-12-13 Alexander Bagaev Systems and methods for identifying cancer treatments from normalized biomarker scores
KR101963331B1 (ko) * 2017-06-22 2019-03-28 한국과학기술원 인체 대사 물질과의 유사도 기반 약물 재창출 후보 예측 방법 및 그 시스템
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023388A1 (en) * 2001-05-07 2003-01-30 Andreas Wagner System and method for reconstructing pathways in large genetic networks from genetic perturbations
US20030219764A1 (en) * 2001-09-26 2003-11-27 Seiya Imoto Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
US20130151452A1 (en) * 2010-05-19 2013-06-13 The Regents Of The University Of California Systems and Methods for Identifying Drug Targets Using Biological Networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271414B2 (en) * 2009-07-24 2012-09-18 International Business Machines Corporation Network characterization, feature extraction and application to classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023388A1 (en) * 2001-05-07 2003-01-30 Andreas Wagner System and method for reconstructing pathways in large genetic networks from genetic perturbations
US20030219764A1 (en) * 2001-09-26 2003-11-27 Seiya Imoto Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
US20130151452A1 (en) * 2010-05-19 2013-06-13 The Regents Of The University Of California Systems and Methods for Identifying Drug Targets Using Biological Networks

Also Published As

Publication number Publication date
WO2015180972A1 (fr) 2015-12-03
EP3149638A1 (fr) 2017-04-05
US20170154151A1 (en) 2017-06-01

Similar Documents

Publication Publication Date Title
US11514575B2 (en) Systems and methods for identifying morphological patterns in tissue samples
Si et al. Model-based clustering for RNA-seq data
Eshghi et al. Identifying groups: A comparison of methodologies
Blanco-Bercial Metabarcoding analyses and seasonality of the zooplankton community at BATS
Grotkjær et al. Robust multi-scale clustering of large DNA microarray datasets with the consensus algorithm
Fu et al. Gaussian mixture model with feature selection: An embedded approach
EP3149638A1 (fr) Procede d'identification d'une relation entre des elements biologiques
Reeb et al. Assessing dissimilarity measures for sample-based hierarchical clustering of RNA sequencing data using plasmode datasets
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、***和存储介质
Jeong et al. PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing
Batson et al. Molecular cross-validation for single-cell RNA-seq
Fung et al. Automation of QIIME2 metagenomic analysis platform
CN113379457A (zh) 面向金融领域的智能营销方法
US20130304783A1 (en) Computer-implemented method for analyzing multivariate data
US20200227134A1 (en) Drug Efficacy Prediction for Treatment of Genetic Disease
Colombo et al. FastMotif: spectral sequence motif discovery
Heydari et al. Deep learning in spatial transcriptomics: Learning from the next next-generation sequencing
Strauß et al. GPseudoRank: a permutation sampler for single cell orderings
FR2943156A1 (fr) Procede d'elaboration d'un dispositif de prediction, utilisation, support de stockage d'information et appareil correspondants.
CN112086133A (zh) 一种基于文本隐含信息的药物靶标特征学习方法及装置
Chen et al. Learning vector quantized representation for cancer subtypes identification
Clevert et al. Rectified factor networks for biclustering of omics data
Wang et al. Learning dynamics by computational integration of single cell genomic and lineage information
Wen et al. A parallelized strategy for epistasis analysis based on Empirical Bayesian Elastic Net models
Collin et al. Bringing ABC inference to the machine learning realm: AbcRanger, an optimized random forests library for ABC

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20151204

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

ST Notification of lapse

Effective date: 20210105