FR2884007A1 - Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants - Google Patents

Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants Download PDF

Info

Publication number
FR2884007A1
FR2884007A1 FR0503047A FR0503047A FR2884007A1 FR 2884007 A1 FR2884007 A1 FR 2884007A1 FR 0503047 A FR0503047 A FR 0503047A FR 0503047 A FR0503047 A FR 0503047A FR 2884007 A1 FR2884007 A1 FR 2884007A1
Authority
FR
France
Prior art keywords
images
face
vectors
learning
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0503047A
Other languages
English (en)
Inventor
Sid Ahmed Berrani
Christophe Garcia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0503047A priority Critical patent/FR2884007A1/fr
Priority to JP2008503505A priority patent/JP2008537216A/ja
Priority to EP06708817A priority patent/EP1864242A1/fr
Priority to US11/910,158 priority patent/US20080279424A1/en
Priority to PCT/EP2006/061109 priority patent/WO2006103240A1/fr
Priority to CNA2006800149452A priority patent/CN101171599A/zh
Publication of FR2884007A1 publication Critical patent/FR2884007A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)

Abstract

L'invention concerne un procédé d'identification de visages à partir d'images de visage, appelées images requêtes, associées à au moins une personne. Un tel procédé d'identification comprend une phase d'apprentissage, à partir d'images d'apprentissage, et une phase de reconnaissance, permettant d'identifier les visages figurant sur des images requêtes.Selon l'invention, un tel procédé d'identification comprend une étape de filtrage desdites images d'apprentissage et/ou desdites images requêtes, permettant de sélectionner au moins une image d'apprentissage et/ou au moins une image requête représentative dudit visage à identifier. Un tel filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant :- une distance maximale (DRCmax) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs ;- une distance maximale (DOmax) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.

Description

Procédé d'identification de visages à partir d'images de visage,
dispositif et programme d'ordinateur correspondants.
1. Domaine de l'invention Le domaine de l'invention est celui du traitement des images et des séquences d'images, telles que les séquences vidéo. Plus précisément, l'invention concerne une technique de reconnaissance de visages à partir d'un ensemble d'images de visage d'une ou plusieurs personnes.
L'invention trouve notamment, mais non exclusivement, des applications dans les domaines de la biométrie, de la vidéosurveillance, ou encore de l'indexation vidéo, dans lesquels il est important de pouvoir reconnaître un visage à partir d'une image fixe ou d'une séquence vidéo (par exemple pour autoriser une personne reconnue à accéder à un lieu protégé).
2. Solutions de l'art antérieur On connaît à ce jour plusieurs techniques de reconnaissance de visages à partir de séquences d'images fixes ou animées. Ces techniques reposent classiquement sur une première phase d'apprentissage, au cours de laquelle on construit une base d'apprentissage, à partir des images de visage de différentes personnes (éventuellement extraites de séquences vidéo d'apprentissage), et sur une deuxième phase de reconnaissance, au cours de laquelle les images de la base d'apprentissage sont utilisées pour reconnaître une personne.
Ces techniques mettent généralement en oeuvre des méthodes statistiques pour calculer, à partir de la base d'apprentissage, un espace de description dans lequel la similarité entre deux visages est évaluée. L'objectif est alors de traduire le plus fidèlement possible la notion de ressemblance entre deux visages en une simple notion de proximité spatiale entre les projections des visages dans l'espace de description.
Les différences principales entre les différentes techniques existantes résident dans le traitement effectué lors de la phase de reconnaissance.
Ainsi, A.W. Senior dans "Recognizing Faces in Broadcast Video" ("Reconnaissance de visages dans des vidéos diffusées "), Proc. of Int. Workshop on Recognition, Analysis and Tracking of Faces and Gestures in Real Time Systems, Corfu, Greece, Septembre 1999, pp. 105 110, propose, lors de la phase de reconnaissance, d'utiliser, soit toutes les images de visage extraites d'une séquence vidéo, soit une unique image de visage clef, à savoir celle à laquelle le détecteur de visage a attribué le score de confiance le plus élevé.
Selon une autre approche, A. Hadid, et M. Pietikàinen dans "From Still Image to Video-Based Face Recognition: An Experimental Analysis" ("De la reconnaissance de visage à partir d'images fixes à la reconnaissance de visages à partir de vidéos: une analyse expérimentale"), Proc. of 6h Int. Conf. on Automatic Face and Gesture Recognition, Seoul, Korea, Mai 2004, pp. 813 818, proposent quant à eux de sélectionner des images clefs à partir de la séquence vidéo, sans analyser les visages qu'elles contiennent, puis d'effectuer la reconnaissance en considérant uniquement les visages extraits à partir des images clefs. Chaque visage retournant un résultat différent, une procédure classique de fusion des résultats a posteriori est ensuite utilisée.
Enfin, dans "An Automatic Face Detection and Recognition System for Video Indexing Applications" ("Système de reconnaissance et de détection automatique de visages pour des applications d'indexation vidéo"), Proc. of the Int. Conf. on Acoustic Speech and Signal Processing (vol. 4), Orlando, Florida, Mai 2002, pp. IV-3644 IV-3647, E. Acosta et al. utilisent quant à eux l'ensemble des visages extraits à partir de la séquence vidéo requête lors de la reconnaissance. Pour évaluer la proximité entre la requête et le modèle d'une des personnes stockées dans la base d'apprentissage, une mesure de similarité entre chaque image de visage extraite à partir de la séquence requête et le modèle est calculée. La valeur finale de la similarité est la valeur médiane de toutes les mesures calculées, ce qui revient à considérer une unique image de visage parmi toutes celles qui ont été extraites.
3. Inconvénients de l'art antérieur Ces différentes techniques de l'art antérieur reposent toutes sur des méthodes statistiques permettant de construire un espace de description dans lequel on projette les images de visage. Or, ces projections doivent être capables d'absorber les variations qui peuvent affecter les images de visages, c'est-à-dire qu'elles doivent pouvoir mettre en évidence les ressemblances entre images de visage en dépit des variations qui peuvent affecter les images.
Ces variations peuvent être de deux types. Il y a d'abord les variations inhérentes aux changements d'expressions de visages (e. g. le sourire) et aux occultations (e. g. le port de lunettes, la barbe...). Ensuite, il y a les variations dues aux conditions d'acquisition de l'image (e. g. conditions d'illumination) et à la segmentation du visage (i.e. l'extraction et le centrage de la portion d'image contenant le visage).
Si les méthodes antérieures pour la reconnaissance de visages sont efficaces dans le cas où les images de visages sont bien cadrées et sont prises dans de bonnes conditions d'illumination, leurs performances se dégradent fortement lorsque les images de visages utilisées pour l'apprentissage ou lors de la reconnaissance ne sont pas très bien alignées (i.e. les différents attributs du visages (les yeux, la bouche, le nez...) ne se trouvent pas aux mêmes endroits dans toutes les images de visages), et/ou ne sont pas de bonne qualité.
Or, dans le contexte de la reconnaissance de visages à partir de séquences vidéo, ces conditions d'alignement et de bonne qualité des images de visages ne sont généralement pas vérifiées. D'une part, l'acquisition des séquences n'est pas très contrainte et la personne à reconnaître ne reste en général pas en position frontale en face de la caméra durant toute la durée de l'acquisition. D'autre part, les images de visages sont extraites automatiquement à partir des séquences vidéo à l'aide de techniques de détection de visages, qui peuvent générer de fausses détections et sont imprécises en terme de cadrage. Les images de visages utilisées dans ce contexte peuvent donc être de mauvaise qualité, être mal cadrées et peuvent contenir de mauvaises détections.
Les inventeurs de la présente demande de brevet ont donc identifié que l'un des inconvénients majeurs des méthodes existantes pour la reconnaissance de visages à partir de séquences vidéo réside dans l'absence de prise en compte de la qualité des images de visage utilisées.
Ainsi par exemple, toutes les images de visages disponibles (par exemple toutes les images de visage extraites à partir des séquences vidéo) sont systématiquement prises en compte lors de l'apprentissage. Ceci réduit considérablement les performances de ces techniques, du fait que les méthodes statistiques (de type ACP pour Analyse en Composantes Principales) utilisées pour la reconnaissance de visages sont extrêmement sensibles aux bruits car elles reposent sur le calcul d'une matrice de covariance (c'est-à- dire de moments d'ordre 1 et 2).
De même, selon ces méthodes antérieures, le choix des images de visage utilisées lors de la phase de reconnaissance n'est pas optimal. Or, le choix de ces images influence fortement les performances de ces techniques de reconnaissance de visages: elles doivent être bien cadrées et de bonne qualité. Cependant, aucune des méthodes de l'art antérieur citées ci-dessus ne propose une sélection des images qui tienne compte de leur "qualité".
4. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art 10 antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de reconnaissance de visages à partir d'images de visage fixes ou de séquences vidéo qui présente des performances accrues par rapport aux techniques de l'art antérieur. Notamment, un objectif de l'invention est de proposer une telle technique qui donne des résultats satisfaisants, même lorsque les images de visage à traiter sont bruitées, mal cadrées, et/ou présentent de mauvaises conditions d'illumination.
Un autre objectif de l'invention est de proposer une telle technique qui permette d'optimiser les capacités de reconnaissance des méthodes statistiques sur lesquelles elle repose.
L'invention a encore pour objectif de fournir une telle technique qui tienne compte de la qualité des images de visage utilisées.
Encore un objectif de l'invention est de proposer une telle technique qui soit bien adaptée à la reconnaissance de plusieurs personnes distinctes, dans le cadre d'applications de biométrie, de vidéosurveillance et d'indexation vidéo par exemple.
L'invention a également pour objectif de fournir une telle technique qui soit simple et peu coûteuse à mettre en oeuvre.
5. Caractéristiques essentielles de l'invention Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit procédé comprenant une phase d'apprentissage et une phase de reconnaissance dudit au moins un visage.
Selon l'invention, un tel procédé d'identification comprend au moins une étape de filtrage desdites images, permettant de sélectionner au moins une image représentative dudit visage à identifier, et ledit filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant: une distance maximale (DRC,,,) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; - une distance maximale (DO.) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la reconnaissance de visages, à partir d'images fixes ou d'images extraites de séquences vidéo. En effet, l'invention propose de ne pas tenir compte de l'ensemble des images de visage disponibles pour identifier le visage d'une personne, mais de réaliser un filtrage des images, afin de sélectionner uniquement les images de bonne qualité, c'est-à-dire celles qui sont représentatives du visage à identifier (parce que le visage est en pose frontale, qu'il est bien cadré, etc.). Ce filtrage est réalisé au moyen d'un ou deux seuils de filtrage qui sont la distance robuste au centre, ou DRC, et/ou la distance orthogonale, ou DO. Un tel filtrage est réalisé sur les vecteurs associés aux images, et permet, après analyse de la distribution et des propriétés statistiques de ces vecteurs, de détecter et d'isoler le ou les vecteur(s) aberrant(s). Il repose sur l'hypothèse selon laquelle la majorité des images disponibles sont de bonne qualité, ce qui permet d'identifier tous les vecteurs qui ne suivent pas les propriétés de distribution de l'ensemble des vecteurs disponibles comme des vecteurs aberrants, et donc associés à des images de qualité moindre, ou en tout cas peu représentatives du visage à identifier.
La distance robuste au centre, ou DRC, tient compte de la distance d'un vecteur au centre du nuage de vecteurs et de l'appartenance du vecteur considéré à ce nuage. La distance orthogonale, ou DO, est la distance entre un vecteur et le vecteur obtenu après projection du vecteur d'origine dans un espace associé au nuage de vecteurs, puis projection inverse.
Selon une première caractéristique avantageuse de l'invention, ladite étape de filtrage est mise en oeuvre lors de ladite phase d'apprentissage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, et permet de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, et ledit au moins un seuil est déterminé à partir de vecteurs associés auxdites images d'apprentissage.
Contrairement aux méthodes de l'art antérieur, selon lesquelles toutes les images disponibles étaient systématiquement prises en compte lors de l'apprentissage, l'invention propose donc de sélectionner seulement une partie des images d'apprentissage, en fonction de leur qualité, de façon à ne retenir que celles qui sont les plus représentatives d'images de visage.
Avantageusement, ladite phase d'apprentissage comprend également une étape de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s). Cette étape de construction met en oeuvre une technique appartenant au groupe comprenant: - une technique d'Analyse en Composantes Principales; - une technique d'Analyse Discriminante Linéaire; une technique d'Analyse en Composantes Principales à deux Dimensions; - une technique d'Analyse Discriminante Linéaire à deux Dimensions.
Selon une deuxième caractéristique avantageuse de l'invention, ladite étape de filtrage est mise en oeuvre lors de ladite phase de reconnaissance, à partir d'un groupe d'au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et permet de sélectionner au moins une image requête représentative dudit visage à identifier, et ledit au moins un seuil est déterminé lors de ladite phase d'apprentissage, à partir de vecteurs associés à des images de visage d'apprentissage.
Ainsi, on filtre les images requêtes, en fonction de leur qualité, de façon à n'effectuer la reconnaissance qu'à partir des images les moins bruitées, et les plus représentatives de visages. On accroît ainsi considérablement les performances d'identification des visages par rapport aux techniques antérieures. Ce filtrage effectué lors de la phase de reconnaissance peut être ou non complémentaire d'un filtrage lors de l'apprentissage. En outre, il est particulièrement avantageux d'utiliser les seuils calculés lors de l'apprentissage, car les images d'apprentissage sont généralement de meilleure qualité que les images requêtes, du fait de leurs conditions d'acquisition.
Dans une variante de l'invention, ledit au moins un seuil est déterminé lors de ladite phase de reconnaissance, à partir de vecteurs associés à un ensemble d'images comprenant au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et au moins deux images d'apprentissage représentatives dudit visage à identifier, sélectionnées lors de ladite phase d'apprentissage, et ladite étape de filtrage est mise en oeuvre lors de ladite phase de reconnaissance, à partir desdites images requêtes et permet de sélectionner au moins une image requête représentative dudit visage à identifier.
Dans cette variante, on filtre également les images requêtes lors de la phase de reconnaissance en utilisant les résultats de la phase d'apprentissage, mais cette fois sous la forme d'images d'apprentissage représentatives du ou des visages à identifier, et non plus sous la forme de seuils.
Préférentiellement, ladite phase de reconnaissance comprend également une étape de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit lors de ladite phase d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée lors de ladite phase d'apprentissage, de façon à identifier ledit visage. La notion de ressemblance entre deux visages est alors traduite en une simple notion de proximité spatiale entre les projections des visages dans
l'espace de description.
Lors de cette étape de comparaison: - on compare la projection de chacun desdits vecteurs associés à chacune desdites images requêtes représentatives à la projection de chacun desdits vecteurs associés à chacune desdites images d'apprentissage représentatives; - on détermine, pour chacun desdits vecteurs associés à chacune desdites images requêtes représentatives, quel est le plus proche vecteur associé à une desdites images d'apprentissage représentatives, et à quelle personne, appelée personne désignée, il est associé ; on identifie ledit visage comme celui de la personne désignée le plus grand nombre de fois.
De façon préférentielle, ladite étape de filtrage desdites images d'apprentissage et/ou ladite étape de filtrage desdites images requêtes met(tent) en oeuvre lesdits deux seuils, à savoir DOm et DRCm (calculés pour l'ensemble des images ou séquence par séquence).
Pour une application préférentielle de l'invention, certaines au moins desdites images sont extraites à partir d'au moins une séquence vidéo par mise en oeuvre d'un algorithme de détection de visages, bien connu de l'Homme du Métier.
Le procédé d'identification de l'invention comprend également une étape de redimensionnement desdites images, de façon à ce que lesdites images soient toutes de même taille. Plus précisément, en présence d'une image ou d'une séquence vidéo, un détecteur de visage permet d'extraire une image de visage, de taille fixe (toutes les images issues de ce détecteur sont ainsi de même taille). Ensuite, lors du traitement de cette image de visage de taille fixe, on procède à un premier redimensionnement de l'image lors du filtrage de la phase d'apprentissage, de façon à réduire sa taille, et ainsi éviter de prendre en compte les détails et enlever le bruit (par exemple, on conserve seulement un pixel sur trois de l'image d'origine). Un deuxième redimensionnement de l'image est également effectué lors de la construction de l'espace de description.
Avantageusement, lesdits vecteurs associés auxdites images sont obtenus par concaténation de lignes et/ou de colonnes desdites images.
Selon une première variante avantageuse de l'invention, ladite phase d'apprentissage étant mise en oeuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de chacune desdites au moins deux personnes, et, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à chacune desdites au moins deux personnes. On calcule alors autant de seuils DOU) , et DRC(''max qu'il y a de personnes j dans la base d'apprentissage.
Selon une deuxième variante avantageuse de l'invention, ladite phase d'apprentissage étant mise en oeuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de l'ensemble desdites au moins deux personnes, et, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à l'ensemble desdites au moins deux personnes. On calcule alors deux seuls seuils DOm et DRCn,ax pour l'ensemble des personnes de la base d'apprentissage.
De façon préférentielle, le procédé de l'invention comprend une première étape de filtrage desdites images d'apprentissage lors de ladite phase d'apprentissage, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, et une deuxième étape de filtrage desdites images requêtes, lors de ladite phase de reconnaissance, permettant de sélectionner au moins une image requête représentative dudit visage à identifier.
On sélectionne ainsi, et les images d'apprentissage les moins bruitées, et les images requêtes les moins bruitées, ce qui améliore fortement les performances de reconnaissance des visages par rapport aux techniques antérieures.
Selon une caractéristique avantageuse de l'invention, lesdits seuils DO,,, ax et DRC,,,ax sont déterminés à l'issue d'une Analyse en Composantes Principales Robuste (RobPCA) appliquée auxdits vecteurs associés auxdites images d'apprentissage, permettant de déterminer également une moyenne robuste associée auxdits vecteurs, et une matrice de projection P construite à partir des vecteurs propres d'une matrice de covariance robuste associée auxdits vecteurs, et lesdits seuils sont associés aux distances suivantes: DO =lx; Pd.kylll k 2 DRC;= 1.
où x; est un desdits vecteurs associés auxdites images d'apprentissage, Pdk est une matrice comprenant les k premières colonnes de ladite matrice de projection P, y est le j'e élément d'une projection y, dudit vecteur x; à partir de ladite matrice de projection et de ladite moyenne robuste.
Les valeurs de DOmax et DRC,,,ax sont déterminées par analyse de la distribution des DO, et DRC; pour l'ensemble des vecteurs x,.
On notera que, dans l'ensemble de ce document, on utilise les notations suivantes: les lettres en majuscules (e. g. A, B) font référence à des matrices dont le nombre de lignes et le nombre de colonnes sont mentionnés au besoin en indice (e. g.
An,n, est ainsi une matrice n lignes, m colonnes) ; les lettres en minuscules (e. g. a, b) font référence à des vecteurs; pour une matrice A . ai fait référence à la i ligne de A et a, fait référence à l'élément situé à l'intersection de la i ligne et de lai" colonne de A; det(A) est le déterminant de la matrice A; 1,, est le vecteur unitaire de dimension n; diag(a,,...,a ) est la matrice diagonale à n lignes, n colonnes, dont les éléments de la diagonale sont; A est la matrice transposée de la matrice A; a est la transposée du vecteur a; Ilvl est la norme euclidienne du vecteur v.
L'invention concerne aussi un système d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit système comprenant un dispositif d'apprentissage et un dispositif de reconnaissance dudit au moins un visage. Un tel système comprend des moyens de détermination d'au moins un des seuils appartenant au groupe comprenant: une distance maximale (DRCm.) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; une distance maximale (DOm) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs; et des moyens de filtrage desdites images, permettant de sélectionner au moins une image représentative dudit visage à identifier, à partir de l'un au moins desdits seuils.
L'invention concerne également un dispositif d'apprentissage d'un système d'identification d'au moins un visage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à au moins une personne, comprenant: des moyens d'analyse desdites images d'apprentissage permettant de déterminer, à partir de vecteurs associés auxdites images d'apprentissage, au moins un des seuils appartenant au groupe comprenant: une distance maximale (DRCm) tenant au moins compte de l'appartenance desdits vecteurs à un nuage constitué par lesdits vecteurs; une distance maximale (DOmax) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs; des moyens de filtrage desdites images d'apprentissage à partir de l'un au moins desdits seuils, de façon à sélectionner au moins une image d'apprentissage représentative dudit visage à identifier; des moyens de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s).
L'invention concerne aussi un dispositif de reconnaissance d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, appelées images requêtes, ledit dispositif de reconnaissance appartenant à un système d'identification dudit au moins un visage comprenant également un dispositif d'apprentissage. Un tel dispositif de reconnaissance comprend: des moyens de filtrage desdites images requêtes à partir d'au moins un seuil déterminé par ledit dispositif d'apprentissage, de façon à sélectionner au moins une image requête représentative dudit visage à reconnaître; des moyens de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit par ledit dispositif d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée par ledit dispositif d'apprentissage, de façon à identifier ledit visage. L'invention concerne encore un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution de la phase d'apprentissage du procédé d'identification d'au moins un visage décrit précédemment lorsque ledit programme est exécuté par un processeur.
L'invention concerne enfin un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes de la phase de reconnaissance du procédé d'identification d'au moins un visage décrit précédemment lorsque ledit programme est exécuté par un processeur.
6. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels: la figure 1 présente un exemple d'images de visage en pose frontale et bien cadrées; la figure 2 présente un exemple d'images de visage qui, au contraire de ceux de la figure 1, sont bruités car mal cadrés et/ou en pose non frontale; - la figure 3 présente un synoptique du procédé d'identification de visage de l'invention; la figure 4 illustre plus précisément les traitements effectués lors de la phase d'apprentissage du procédé de la figure 3, dans un mode de réalisation particulier de l'invention; la figure 5 présente de manière plus schématique la phase d'apprentissage de la figure 4; la figure 6 illustre plus en détail les traitements effectués lors de la phase de reconnaissance du procédé illustré en figure 3; - les figures 7 et 8 présentent respectivement des schémas simplifiés des dispositifs d'apprentissage et de reconnaissance de visages de l'invention.
7. Description d'un mode de réalisation de l'invention Le principe général de l'invention repose sur la sélection d'un sous-ensemble d'images à utiliser, lors de la phase d'apprentissage et/ou de la phase de reconnaissance, par utilisation d'une Analyse en Composantes Principales Robuste, ou RobPCA. L'invention permet notamment d'isoler les images de visages bruitées lors de l'apprentissage, et de déduire des paramètres permettant de filtrer également les images de visages lors de la reconnaissance, ce qui permet de construire un espace de description sans prendre en compte le bruit, et d'effectuer la reconnaissance en se basant sur plusieurs exemples d'images de visages également non bruitées. L'approche proposée permet ainsi d'accroître considérablement les taux de reconnaissance par rapport à une approche qui prendrait en compte toutes les images de la séquence.
On présente, en relation avec les figures 1 et 2, des exemples d'images de visage, d'une part en pose frontale et bien cadrées (figure 1) , et d'autre part en pose non frontale, ou mal cadrées, et donc bruitées (figure 2). L'invention permet donc, en présence d'un ensemble d'images de visage, de sélectionner uniquement des images de visage du type de celles de la figure 1, pour réaliser l'apprentissage ou la reconnaissance de visages, et d'écarter toutes les images de visage du type de celles de la figure 2, que l'on considère comme des images bruitées.
On s'attache, dans toute la suite du document, à décrire un exemple deréalisation de l'invention dans le cadre de la reconnaissance de visages à partir de séquences vidéo, tant lors de la phase d'apprentissage que de la phase de reconnaissance. L'invention s'applique bien sûr également à la reconnaissance d'images de visage à partir d'un ensemble d'images fixes, obtenues par exemple à l'aide d'un appareil photo en mode rafale.
En outre, on s'attache à décrire un mode de réalisation particulier dans lequel on filtre les images bruitées, tant lors de la phase d'apprentissage que de la phase de reconnaissance, au cours de laquelle on utilise les résultats de la phase d'apprentissage. Ces deux phases peuvent bien sûr également être mises en oeuvre indépendamment l'une de l'autre.
La figure 3 présente un synoptique du procédé d'identification de visage de l'invention, qui comprend trois étapes principales: analyse 31 du corpus des images de visages (I,",...IM3m)) extraites (30) à partir des séquences vidéo d'apprentissage (e, 20...5('), ...S, où l'indice j désigne la personne à qui est associée la séquence S('') pour déterminer, d'une part, deux seuils de décision (DOm, DRCm) pour filtrer les images de visages non représentatives, et d'autre part, un modèle 34 (un espace de description) basé sur les images de visages représentatives; -filtrage 32 des images de visages à reconnaître (19k')K (images extraites à partir q.1 de la séquence requête) suivant les seuils (DO., DRCm) obtenus lors de la phase d'apprentissage pour obtenir des images de visages représentatives suivant ces critères (Pk')',_. Comme détaillé davantage dans la suite de ce document, ce filtrage tient également compte d'une matrice de projection P et d'une moyenne robuste!À ; -utilisation uniquement des images de visages représentatives (J ) pour la e reconnaissance 33 de visages 35 suivant le modèle 34 obtenu lors de la phase d'apprentissage.
Il est bien sûr possible, bien que peu fréquent, qu'aucune image ne soit de suffisamment bonne qualité pour être retenue comme une image représentative lors du filtrage. Il convient alors de sélectionner au moins une image, selon un critère à définir: par exemple, on choisit de sélectionner la première image de la séquence.
On présente ci-après plus en détail ces différentes étapes principales.
7.1 Analyse des séquences vidéo d'apprentissage et sélection des images représentatives À chaque personne 40 (également identifiée par l'indice j) , est associée une séquence vidéo S0'. Une séquence S0' peut être acquise en filmant la personne 40 à l'aide d'une caméra 41 pendant une durée déterminée. En appliquant un détecteur de visages 42 sur chacune des images de la séquence SU' (selon une technique bien connue de l'Homme du Métier qui ne fait pas l'objet de la présente invention et ne sera donc pas décrite ici plus en détail), un ensemble d'images de visages (110', .. .I140') est extrait à partir de la séquence SU'. L'invention permet alors de sélectionner uniquement les images de visages qui sont en pose frontale et bien cadrées et ceci, en analysant les images de visages elles-mêmes. Pour cela, on utilise une analyse en composantes principales robuste (RobPCA), telle que décrite par M. Hubert, P.J. Rousseeuw, et K. Vanden Branden dans "ROBPCA: A New Approach to Robust Principal Component Analysis ", Technometrics, 47(1): 64 79 Février 2005.
L'idée est de considérer chacune des images de visages I;0' comme un vecteur v;0' et d'assimiler le problème à un problème de détection de vecteurs aberrants, en supposant que la majorité des visages extraits de la séquence S0' sont de bonne qualité (i.e. bien cadrés et en pose frontale). Cette hypothèse est raisonnable car l'on peut considérer que l'acquisition de la vidéo de la personne 40 dont on réalise l'apprentissage peut s'effectuer dans des conditions bien maîtrisées. Pour chaque ensemble d'images de visages (I10', ...IN ') extraites à partir d'une séquence vidéo S0', on procède de la façon suivante: chaque image I;0' est redimensionnée 43 pour que toutes les images aient la même taille: on obtient alors un ensemble d'images (I'10', l'N()') ; un vecteur v'; ' est associé 44 à chacune des images de visages I'; ' redimensionnées extraites à partir de la séquence S '. Ce vecteur v';'' est construit par concaténation des lignes (ou bien des colonnes) de l'image Chaque composante correspond à la valeur du niveau de gris d'un pixel de l'image I';'' ; les vecteurs v';'' sont disposés 45 sous la forme d'une matrice X' où chaque ligne correspond à un vecteur v';'' associé à une image I', ' ; - une analyse en composantes principales robuste (RobPCA) 46 est appliquée sur la matrice X /. Un nouvel espace de dimension plus réduite est alors défini par une matrice de projection robuste P 1 et une moyenne robuste,Lé) ; - pour un vecteur v', ' (vecteur associé à une image de visage de la personne d'indice j, ligne de la matrice X 1), deux distances sont calculées 47: la distance orthogonale (DO 1) et la distance robuste au centre (DRC, '), de la façon suivante: DO = l v," ;20' P(R'y; et DRC'' = E y m, où P 1d,k est m_I lm composée des k premières colonnes de P0', et où y, est la ie ligne de la matrice Y , projection de la matrice X définie par Y xk =(X,,, -1 ) Pdxk. L'analyse de la distribution des distances orthogonales et des distances robustes au centre permet de déterminer deux seuils de décision DO,,,ax et DRdélivrées en sortie du bloc 46 de RobPCA. Si pour un vecteur v', ', DO, ' > DO, ax 1 ou DRC, 1 > DRC,,,axw (48) alors le vecteur v', ', est considéré (49) comme un vecteur aberrant et l'image de visage associée n'est pas sélectionnée (i.e. n'est pas prise en compte lors de l'apprentissage). Dans le cas contraire 50, l'image est considérée comme une image de visage représentative, et est mémorisée dans la base d'apprentissage BA 51; - la matrice de projection P ', la moyenne robuste e ainsi que les deux seuils de décision DO',,,ax et D R C''',,,ax pour chaque séquence S ' sont également sauvegardés dans la base d'apprentissage BA 51.
Dans une variante de réalisation de cette étape de sélection des images d'apprentissage représentatives du visage à identifier, on considère simultanément l'ensemble des images de visages extraites à partir de toutes les séquences vidéo d'apprentissage S. Dans ce cas, une seule projection P, une seule moyenne robuste , un seul seuil de décision DO. et un seul seuil de décision DRCm sont calculés lors de la phase d'apprentissage. Les images de visage d'apprentissage sont donc filtrées en utilisant P, , DOm et DRCmaX. Une image est filtrée si: DO, > DO. ou DRC, > DRC1118% où DO, et DRC; sont respectivement la distance orthogonale et la distance robuste au centre de v'; (le vecteur associé à I';) en utilisant P et .
7.2 Construction de l'espace de description
Seules les images de visages sélectionnées 50 lors de l'étape précédente sont incluses dans la base d'apprentissage 51 utilisée pour la construction de l'espace de description. Celui-ci est calculé en utilisant une des techniques statistiques connues telles que l'ACP ("Analyse en Composantes Principales"), l'ADL ("Analyse Discriminante Linéaire"), l'ACP2D ou l'ADL2D (i.e. "en deux dimensions"). L'objectif de ces techniques est de trouver un espace de dimension réduite dans lequel les vecteurs v;'' associés aux images de visages sont projetés et comparés.
Une fois la projection calculée, tous les vecteurs v, associés aux images de visages I ) de la base d'apprentissage 51 sont projetés dans l'espace de description. Leurs projections sont ensuite sauvegardées et utilisées lors de la phase de reconnaissance.
La figure 5 présente de manière plus schématique ces deux phases constitutives de la phase d'apprentissage, à savoir l'analyse des séquences vidéo d'apprentissage et la sélection des images représentatives (7.1) et la construction de l'espace de description (7. 2). On dispose en entrée d'une pluralité de séquences vidéo d'apprentissage S' à S", généralement associées chacune à une personne distincte que l'on veut pouvoir identifier. Un détecteur de visages 42 est appliqué à chacune de ces séquences, afin d'en extraire n ensembles d'images de visage (Pr' à (Il' . Sur chacun de ces ensembles i-1 d'images de visage, on procède à la sélection 51 d'images de visage représentatives, qui permet d'obtenir: d'une part, des données 52 comprenant les deux seuils de filtrage DO, et DRC,. associés à la séquence vidéo considérée, et une méthode de projection associée à la séquence (par exemple sous la forme d'une matrice de projection P et d'une moyenne robuste t associées aux images de la séquence) ; d'autre part des images de visage d'apprentissage représentatives (I' )M à (In)Mn r t 53.
Ces images d'apprentissage 53 représentatives des visages à identifier sont utilisées pour construire 54 un espace de description 55, ou modèle, associé aux personnes à identifier, et pour réaliser la projection 56 des vecteurs associés aux images d'apprentissage représentatives 53.
On présente ci-après les traitements réalisés lors de la phase de reconnaissance du procédé d'identification de l'invention.
7.3 Sélection des images représentatives à partir de la séquence requête Comme illustré par la figure 6, en présence d'une séquence requête S représentant une personne à reconnaître (acquise par exemple par une caméra de vidéosurveillance), toutes les images de visages (1)Q sont tout d'abord extraites à 4 1 partir de la séquence S à l'aide d'un détecteur automatique de visages 42. Chacune de ces images Iq peut être considérée comme une image requête et peut donc servir à identifier la personne recherchée. Or, de même que lors de l'apprentissage, pour accroître les chances de bien identifier la personne, on choisit de sélectionner uniquement un sous-ensemble de ces images (Iq)Qpour l'identification. Dans un mode q-1 de réalisation préférentiel de l'invention, on choisit de ne pas réutiliser la même procédure que dans la phase d'apprentissage (7.1), car l'acquisition de la vidéo requête s'effectue dans des conditions que l'on maîtrise généralement moins (e. g. à l'aide d'une caméra de surveillance), et l'hypothèse selon laquelle la majorité des images extraites de la séquence sont en pose frontale et bien cadrées n'est pas toujours vérifiée.
Dans une variante sous-optimale de l'invention, on pourrait cependant choisir de réaliser, sur les images requêtes, un traitement identique à celui réalisé sur les images d'apprentissage lors de la phase d'apprentissage, par analyse de type RobPCA.
Dans le mode de réalisation préférentiel de l'invention, deux variantes peuvent être envisagées, selon que la sélection des images requêtes représentatives du visage à identifier est effectuée à partir des seuils de filtrage DOm et DRCm calculés lors de l'apprentissage, ou directement à partir des images d'apprentissage représentatives.
Dans une première variante, on choisit d'utiliser les paramètres de décision 52 calculés lors de l'apprentissage (7.1, seuils DOm et DRCmj). A chaque image de visage Iq extraite à partir de la séquence requête S, on associe un vecteur vq (par concaténation des lignes ou bien des colonnes de l'image) et on applique l'algorithme 80 suivant pour décider de garder ou non l'image de visage Iq et de l'utiliser ou non lors de l'identification: Pour chacune des séquences vidéo S0 utilisées lors de l'apprentissage: charger la matrice de projection P , la moyenne robuste 0 ainsi que les deux seuils de décision DOmX et DRCmJX qui ont été sauvegardés lors de la phase d'apprentissage, calculer la distance orthogonale DO9')et la distance robuste au centre DRC9')de v'q (où v'q est le vecteur associé à l'image l'q résultant du redimensionnement de lq similaire à celui effectué sur les images d'apprentissage et décrit précédemment dans ce document) en utilisant PO et 0, de la façon suivante: 2 (il DO (/) (J) P lJ)y (J) c k yin, DOq llvq d,k; Il et DRCq, où P(i d,k est composée des k ln, premières colonnes de P0, et où y; est la P ligne de la matrice Y , projection de la matrice X0 définie par Y Xk =(X,,,4 ln I-1 Pm.
L'image Iq n'est pas sélectionnée si DOq'> > DOmaX ou DRC9' DRC, . En d'autres termes, une image de visage n'est pas prise en compte lors de la reconnaissance si le vecteur associé est considéré comme aberrant par toutes les projections et les seuils calculés pour toutes les séquences vidéo d'apprentissage.
Dans la variante de réalisation dans laquelle on ne considère, lors de l'apprentissage, qu'un unique ensemble dans lequel sont regroupées toutes les images d'apprentissage, et où on ne calcule qu'une seule projection P, une seule moyenne robuste , un seul seuil de décision DOm et un seul seuil de décision DRCm, les images de visage requêtes sont également filtrées en utilisant P, p, DO,,,,, et DRCm lors de la phase de reconnaissance. Comme pour l'apprentissage, une image requête I est filtrée (c'est-à-dire considérée comme aberrante) si: DOq > DOm ou DRCq > DRC.
où DOq et DRCq sont respectivement la distance orthogonale et la distance robuste au centre de v' (où v' est le vecteur associé à l', l'image résultante du redimensionnement de 1) en utilisant P et .
Dans une deuxième variante, on utilise les images d'apprentissage représentatives 53 issues de la phase d'apprentissage. A chaque image de visage Iq extraite (42) à partir de la séquence requête S, on associe un vecteur vq (par concaténation des lignes ou bien des colonnes de l'image) et on insère ce vecteur dans chacun des ensembles de vecteurs associés aux images d'apprentissage représentatives 53 issues des séquences vidéo S0) utilisées lors de l'apprentissage. On dispose ainsi d'autant d'ensembles que de séquences d'apprentissage S0'. On applique ensuite sur chacun de ces ensembles une procédure de filtrage similaire à celle utilisée lors de l'apprentissage en calculant les seuils DOm et DRC,,, associés à chacun de ces ensembles. L'image de visage 1q est sélectionnée 80 si elle est retenue comme image représentative par au moins une des procédures de filtrage appliquées (i.e. si pour l'un au moins des ensembles on a DOq s DOm et DRCQ DRCmax)É Cette procédure de sélection 80 des images requêtes représentatives peut être également appliquée en insérant une ou plusieurs images Iq dans l'ensemble d'images de visages composé de toutes les images d'apprentissage représentatives issues de la phase d'apprentissage (toutes séquences d'apprentissage confondues). Il est cependant alors souhaitable que le nombre d'images Iq insérées reste inférieur au nombre d'images d'apprentissage représentatives. La procédure de filtrage est ainsi exécutée une seule fois et l'image de visages Iq est sélectionnée si elle est retenue comme image représentative. Dans ce cas, on calcule seulement deux seuils DOm et DRCm pour l'ensemble constitué de toutes les images d'apprentissage représentatives et de la ou les image(s) Iq.
On note l'ensemble des images de visages sélectionnées à partir de la séquence requête Q = {q,, q2,..., q}.
7.4 Reconnaissance L'identification d'une image requête q, s'effectue en deux étapes. D'abord, l'image requête représentative q, est projetée 81 dans l'espace de description 55 (calculé lors de l'apprentissage) de la même manière que les images de la base d'apprentissage (étape 54). Ensuite, une recherche 82 du plus proche voisin dans l'espace de description 55 est réalisée. Il s'agit de trouver le vecteur projeté parmi les vecteurs projetés 56 correspondant aux images de la base d'apprentissage qui est le plus proche du vecteur projeté requête. L'image requête q, est affectée à la même personne que la personne associée au plus proche voisin retrouvé. Chaque image q, vote ainsi pour une personne donnée, i.e. désigne une personne parmi celle stockées dans la base d'apprentissage. On fusionne (83) ensuite les résultats obtenus pour chacune des images requêtes représentatives de l'ensemble Q, et le visage de la séquence requête est finalement reconnu 84 comme la personne qui aura obtenu le plus grand nombre de votes.
D'autres procédures d'identification à partir des images de l'ensemble Q peuvent être appliquées.
7.5 Description détaillée des traitements effectués dans le cadre de l'invention On présente ci-après plus en détail l'implémentation pratique de l'invention, ainsi que les traitements mathématiques effectués dans l'ensemble des étapes décrites précédemment dans les ≈7.1 à 7.4.
On suppose que l'on dispose d'un ensemble de séquences vidéo S"",.. ., chacune associée à l'une des personnes dont on réalise l'apprentissage. Chaque séquence est acquise par exemple en filmant la personne associée à l'aide d'une caméra pendant une durée déterminée.
Comme présenté dans le 7.1, à partir de chaque séquence d'apprentissage un ensemble d'images de visages est extrait I,, I2,..., 1 à l'aide d'un détecteur automatique de visages appliqué sur chacune des images de la séquence vidéo. On utilise par exemple le détecteur CFF décrit par C. Garcia et M. Delakis dans "Convolutional Face Finder: A Neural Architecture for Fast and Robust Face Detection", IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(11):1408-1423, Novembre 2004. Ces images sont ensuite redimensionnées pour qu'elles aient toutes la même taille (28x31). Cette résolution permet d'éviter de prendre en compte les détails dans les images, car seuls importent la pose du visage (frontale ou non) et son positionnement dans l'image.
Une procédure de sélection des images d'apprentissage représentatives est ensuite appliquée, qui débute par une analyse en composantes principales robustes (RobPCA) sur la matrice XXxd des données, composée des vecteurs associés aux images de visages extraites (d = 28x31). La ligne j de la matrice correspond au vecteur associé à l'image 1e Ce vecteur est construit par concaténation des lignes de l'image I, après redimensionnement.
La RobPCA permet de calculer une moyenne robuste (vecteur de dimension d) et une matrice de covariance robuste Cdxd en ne considérant qu'un sousensemble des vecteurs (à savoir des vecteurs de dimension d associés aux images de visages. Chaque vecteur correspond à une ligne de la matrice X). Elle permet également de réduire la dimension des images en les projetant dans un espace de dimension plus réduite k (k<d) défini par les vecteurs propres de la matrice de covariance robuste C. Selon le principe de la RobPCA, et comme détaillé en annexe 1 qui fait partie intégrante de la présente description, si: Cdxd = P L Pt (1) où P est la matrice des vecteurs propres et L est une matrice diagonale des valeurs propres (L = diag (l,, 12,..., ld)), alors la projection de la matrice X est donnée par: Ynxk =(Xnxd 1 n lut) Pdxk où Pdxk est composée des k premières colonnes de P. Dans la matrice Y, la ligne i représente la projection de la ligne i de la matrice X. Il s'agit donc de la projection de l'image 1;. Les détails de calcul de la matrice C et de la moyenne robuste,u par la RobPCA sont donnés en annexe 1, qui fait partie intégrante de la présente description.
Pour sélectionner les images d'apprentissage représentatives (et donc filtrer les images bruitées), deux distances sont calculées pour chaque images I; : il s'agit de la distance orthogonale (DO;) et de la distance robuste au centre (DRC;). Ces deux distances se calculent comme suit: DO, = 11 x; Pd.kY,r 4I, (2) k 2 DRC; = y'' Jl; ' où x; est le vecteur associé à I; (ligne i de la matrice X) et y; est la ie ligne de la matrice Y. Pour isoler les vecteurs aberrants, les distributions de ces deux distances sont étudiées. Le seuil associé à la distance robuste au centre est défini par. jxk,0,975 si k>1 et de c;,,,75 si k=1 (car la distance au carré de Mahalanobis sur des distributions normales suit approximativement une loi de xk) (voir article de M. Hubert et al. précité). Notons ce seuil DRC, , j étant le numéro de la séquence d'apprentissage. Le seuil de la distance orthogonale est par contre plus difficile à fixer car la distribution des (3) DO, n'est pas connue. On utilise de nouveau la méthode proposée dans l'article de M. Hubert et al. pour le calcul de ce seuil, c'est-à-dire qu'on approxime la distribution par une loi g %Z et on utilise la méthode de Wilson-Hilferty pour l'estimation de g, et g2.
Ainsi, la distance orthogonale à la puissance 2/3 suit une distribution normale de 2 2g 2/3 moyenne m = (g,g2)'/3(1--) et de variance Q2 = /3 En estimant la moyenne 9g2 9g12/3 ph et la variance â2 à partir des valeur DO, à l'aide de l'estimateur MCD (voir article de M. Hubert et al.), le seuil associé à la distance orthogonale pour la séquence numéro j est donné par: DRCL = (m+âzo,975)3/2 où z0975 = (D-'(0, 975) est le quantile à 97,5% d'une distribution gaussienne.
Des images de visages représentatives telles que celles de la figure 1 sont sélectionnées à l'aide de la procédure présentée ici, parmi un ensemble de visages comprenant des images du type de celles des figures 1 et 2. La méthode proposée permet donc de sélectionner uniquement les images en pose frontale (figure 1) et d'isoler les visages de profil ou bien mal cadrés (figure 2).
Après sélection des images d'apprentissage représentatives, l'espace de description peut être construit par analyse en composantes principales (ACP). En reprenant les images d'apprentissage représentatives sélectionnées, on construit tout d'abord une base d'apprentissage sous la forme d'une matrice. Chaque image de visage est redimensionnée pour que toutes les images aient la même taille. La taille choisie est par exemple 63x57. Cette taille peut être celle obtenue directement en sortie du détecteur de visage. À chaque image est ensuite associé un vecteur de dimension 63x57 construit par concaténation des lignes de l'image. Chaque vecteur est alors disposé dans une ligne de la matrice de données, notée X,,,,d, où m est le nombre d'images de visages sélectionnées et d la dimension des vecteurs (dans ce cas d = 63x57).
On notera que, dans toute la suite de ce document, les notations utilisées pour les différentes variables sont indépendantes des notations utilisées précédemment dans le 7.5 de ce document.
Pour calculer l'espace de description, X est d'abord centré et une décomposition spectrale est effectuée: X m.d -1m r = Um.d Dd,d Vd,d (12) où est la moyenne des vecteurs associés aux images de visages sélectionnées (des lignes de la matrice X) et D est une matrice diagonale D = diag(l,, 12,...,ld).
L'espace de description est défini par les vecteurs de la matrice V qui sont aussi les vecteurs propres de la matrice de covariance de X. Le nombre de vecteurs retenus définit la dimension r de l'espace de description. Ce nombre peut être fixé en analysant les valeurs propres (D) par le critère de la proportion de l'inertie exprimée, c'est-à-dire tel que: 1 l 1 = a, (13) où a est un paramètre fixé a priori.
J- J-
Ainsi, les vecteurs projetés dans l'espace de description sont définis par: Ynr =(Xm,d lm t)Vd.r (14) Y, et V sont sauvegardés pour la phase de reconnaissance.
Lors de la phase de reconnaissance, les images requêtes représentatives du visage à identifier sont sélectionnées à partir de la séquence requête en suivant la procédure décrite au 7.3. Notons ces images Ces images sont d'abord redimensionnées pour qu'elles aient la même taille que les images utilisées dans la phase d'apprentissage (63x57 dans le cas ci- dessus). Un vecteur est ensuite associé à chacune de ces images. Notons ces vecteurs Chaque vecteur est alors projeté dans l'espace de description comme suit: b, = (v; ) Vd,r (15) Pour chaque vecteur projeté b., le vecteur y, (la i ligne de la matrice Y) qui lui est le plus proche est retrouvé en calculant la distance entre b, et tous les vecteurs y;. L'image de visage associée à b; est donc reconnue comme étant la personne associée à l'image représentée par le plus proche voisin retrouvé. On dit que b, a voté pour la personne identifiée. Une fois cela effectué pour tous les b;, le visage de la séquence requête est finalement reconnu comme celui de la personne qui aura obtenu le plus grand nombre de votes.
7.6 Dispositifs d'apprentissage et de reconnaissance La figure 7 présente enfin la structure d'un dispositif d'apprentissage de l'invention, qui comprend une mémoire M 61, et une unité de traitement 60 équipée d'un processeur .P, qui est piloté par le programme d'ordinateur Pg 62. L'unité de traitement reçoit en entrée un ensemble d'images de visage d'apprentissage 63, associées à une ou plusieurs personnes identifiées par l'indice,, à partir duquel le microprocesseur P réalise, selon les instructions du programme Pg 62, une Analyse en Composantes Principales Robuste, ou RobPCA. A partir des résultats de cette analyse, le processeur N,P de l'unité de traitement 60 détermine deux seuils 68 de filtrage des images 63, appelés DO. et DRCmaX, soit pour chaque sous- ensemble d'images associées à chaque personne d'indice j, soit pour l'ensemble 63 des images d'apprentissage. Les données 68 comprennent également une moyenne robuste et une matrice de projection P. Le processeur LP sélectionne alors, à partir de ces seuils, de la moyenne et de la matrice de projection P, et parmi l'ensemble 63 d'images d'apprentissage, une ou plusieurs images 64 d'apprentissage représentatives du ou des visages à identifier, (0' délivrées en sortie de l'unité de traitement 60. Une analyse de type ACP permet également au processeur P de déterminer un espace de description, ou modèle, 65 associé à chacune des personnes d'indice j, ainsi qu'une méthode de projection 66 dans cet espace de description 65 de vecteurs associés aux images d'apprentissage, sous la forme d'une moyenne et d'une matrice de projection. L'unité de traitement 60 délivre également en sortie la projection 67 de l'ensemble des vecteurs associés aux images d'apprentissage représentatives 64.
La figure 8 illustre un schéma simplifié d'un dispositif de reconnaissance d'images de visage de l'invention, qui comprend une mémoire M 71, et une unité de traitement 70 équipée d'un processeur P, qui est piloté par le programme d'ordinateur Pg 72. L'unité de traitement 70 reçoit en entrée: un ensemble d'images de visage requêtes 73, à partir desquelles le dispositif de reconnaissance doit identifier le visage d'une personne; les seuils de filtrage DOmax et DRCmaX, ainsi que la moyenne robuste et la matrice de projection P 68 délivrés en sortie du dispositif d'apprentissage; - l'espace de description 65 construit par le dispositif d'apprentissage; - la méthode de projection 66 utilisée par le dispositif d'apprentissage; - les vecteurs 67 associés aux images d'apprentissage représentatives et projetés dans l'espace de description par le dispositif d'apprentissage.
Le processeur iuP de l'unité de traitement 70 sélectionne, selon les instructions du programme Pg 72, une ou plusieurs images requêtes représentatives du visage à identifier, parmi l'ensemble d'images requêtes 73, et à partir des seuils DO,,,ax et DRCma,:, de la moyenne robuste et de la matrice de projection P 68. Il projette ensuite les vecteurs associés à ces images requêtes représentatives dans l'espace de description 65, en suivant la méthode de projection 66. Il compare alors les vecteurs d'apprentissage projetés 67 et les vecteurs requêtes projetés, afin de déterminer quel est le visage 74 identifié comme étant celui figurant sur les images requêtes 73.
Dans la variante déjà mentionnée précédemment, les seuils 68 en entrée du dispositif de reconnaissance sont remplacés par les images d'apprentissagereprésentatives 64, et le processeur gP de l'unité de traitement 70 réalise un filtrage identique à celui réalisé par le dispositif d'apprentissage, à partir de l'ensemble constitué par une image requête 73 et les images d'apprentissage représentatives 64.
On notera que l'on s'est attaché ici à décrire une technique mettant en oeuvre une analyse de type RobPCA: on pourrait bien sûr également utiliser toute autre technique de filtrage à base de deux seuils similaires aux seuils DOm. et DRCma..
ANNEXE 1: Calcul de la moyenne robuste et de la matrice de covariance robuste C par la RobPCA La RobPCA permet de réaliser une analyse en composantes principales, mais en considérant uniquement un sous-ensemble de vecteurs. L'idée est de ne pas inclure dans l'analyse les données bruitées qui risquent d'affecter le calcul de la moyenne et de la matrice de covariance (moments d'ordre 1 et 2 connus pour être très sensibles au bruit). Pour cela, la RobPCA se base sur la propriété suivante: un sousensemble A est moins bruité qu'un autre sous-ensemble B si les vecteurs de A sont moins dispersés que ceux de B. En termes statistiques, l'ensemble le moins bruité est celui dont le déterminant de la matrice de covariance et le plus petit.
Soit un ensemble de n vecteurs de dimension d disposés sous la forme d'une matrice X,,,d. La RobPCA procède en quatre étapes: 1. Les données de la base d'apprentissage (BA) sont prétraitées à l'aide d'une ACP (Analyse en Composantes Principales) traditionnelle. Le but n'est pas de réduire leur dimension car toutes les composantes principales sont retenues. Il s'agit simplement d'éliminer les dimensions superflues. Pour cela, une décomposition en valeurs singulière est réalisée: X,,,d 1m o Un,roDro,rrVra,d, où mo est la moyenne classique et ro le rang de la matrice Xn,d -1,, mot La matrice de données X est ensuite transformée comme suit: Zn.ro - UD.
C'est la matrice Z qui est utilisée dans les étapes suivantes. Dans la suite, on considère la matrice Z comme un ensemble de vecteurs, où chaque vecteur correspond à une ligne de la matrice et est associé à une des images de visages extraites à partir d'une séquence.
2. Le but de la deuxième étape est de retrouver les h vecteurs les moins bruités. On rappelle qu'un vecteur fait référence ici à une ligne de la matrice Z, correspond à une image de visage et est noté z;.
La valeur de h pourrait être choisie par l'utilisateur mais n h doit être supérieur au nombre total de vecteurs aberrants. Comme le nombre de vecteurs aberrants est 30 généralement inconnu, h est choisi comme suit: h = max { [an1 [(n + km. + 1) /2] }, (4) où k,,, est le nombre maximum de composantes principales qui seront retenues et a un paramètre compris en 0,5 et 1. Il représente la proportion des vecteurs non bruités. Dans le cas présent, ce paramètre correspond à la proportion des images de visages d'apprentissage extraites à partir d'une séquence qui sont de bonne qualité et qui pourraient être incluses dans la base d'apprentissage. La valeur de ce paramètre pourrait donc être fixée en fonction des conditions d'acquisition des séquences d'apprentissage et de la qualité des images de visages extraites à partir des séquences. La valeur par défaut est 0,75.
La méthode utilisée pour trouver les h vecteurs les moins bruités est la suivante. 10 Tout d'abord, on calcule pour chaque vecteur z;, outl (z;) = max iz; v Ça, (zj v)I 8 sMCD (zJv) où B est l'ensemble de toutes les directions passant par deux vecteurs différents. Si le nombre de directions est supérieur à 250, un sous-ensemble de 250 directions est choisi aléatoirement. tMCD(z,v) et sMCD(zi'v) sont respectivement la moyenne robuste et l'écart- type robuste de la projection de tous les vecteurs selon la direction définie par v. Il s'agit de la moyenne et de l'écart-type des h valeurs projetées ayant la plus petite variance. Ces deux valeurs sont calculées par l'estimateur MCD unidimensionnel décrit par Hubert et al. dans l'article précité.
Si toutes les sMCD sont supérieures à zéro, on calcule le degré de bruitage outl pour tous les vecteurs et on considère les h vecteurs ayant les plus petites valeurs du degré de bruitage. Les indices de ces vecteurs sont stockés dans l'ensemble Ho.
Si selon une des directions, SMCD(z;v) est nulle, cela veut dire qu'il existe un hyperplan H,, orthogonal à v qui contient h vecteurs. Dans ce cas, tous les vecteurs sont projetés sur H,,, ce qui a pour effet de réduire de un la dimension des vecteurs, et le calcul des degrés de bruitage est repris. Il est à noter ici que cela peut éventuellement se produire plusieurs fois.
À l'issue de cette étape, on a un ensemble Ho des indices des vecteurs les moins bruités et éventuellement un nouvel ensemble de données Z,,, avec r, s ro.
Ensuite, on considère la moyenne m, et la matrice de covariance So des h vecteurs sélectionnés précédemment pour effectuer une analyse en composantes principales et réduire la dimension des vecteurs. La matrice So est décomposée comme suit: son degré de bruitage défini par: (5) So = PoLoPo avec L o la matrice diagonale des valeurs propres: Lo = diag(lo... Ir) et r s r1. On considère ici que tous les 1, sont non nuls et qu'ils sont ordonnés en ordre décroissant. Cette décomposition permet de décider du nombre de composantes principales ko à garder pour la suite de l'analyse. Ceci peut être réalisé de 5 différentes manières. Par exemple, ko pourrait être choisi tel que: / J Ti - 90%, (6) ou bien tel que: lk/l, 10-3. (7) Enfin, les vecteurs sont projetés dans l'espace défini par les ko premiers vecteurs propres 10 de So. La nouvelle matrice de vecteurs est donnée par: Zn,/o = (Zn,ri - ln m, )PO(r)' où Po(r ko) est composé des ko premières colonnes de Po.
3. Dans la troisième étape, la matrice de covariance des vecteurs de Zn, k0 est estimée à l'aide d'un estimateur MCD. L'idée est de retrouver les h vecteurs dont la 15 matrice de covariance a le déterminant le plus petit. Comme il est pratiquement impossible de calculer les matrices de covariance de tous les sous-ensembles contenant h vecteurs, un algorithme approximatif est utilisé. Cet algorithme procède en 4 étapes.
3.1 Soient mo et Co respectivement la moyenne et la matrice de covariance des h vecteurs sélectionnés dans l'étape 2 (ensemble Ho) : (a) Si det(Co) > 0 alors calculer pour chaque vecteur la distance de Mahalanobis par rapport à mo: d,0(i) = . J(z' - mo) Cj1(z* - mo) (8) La sélection des h vecteurs avec les plus petites distances dno,co (i) permet de construire un nouvel ensemble H, dont le déterminant de la matrice de covariance est plus petit que le déterminant de Co. En d'autres termes, si m, et C, sont respectivement la moyenne et la matrice de covariance des h vecteurs de H, alors det(C1) s det(CO).
Cette procédure, appelée C-Step, est donc exécutée itérativement jusqu'à ce que le déterminant de la matrice de covariance des h vecteurs sélectionnés ne 30 décroisse plus.
(b) Si à une itération donnée j, la matrice de covariance C3 est singulière alors, les données sont projetées dans l'espace de dimension plus petite défini par les vecteurs propres de C; dont les valeurs propres sont non nulles et la procédure continue.
À la convergence, on obtient une matrice de données qu'on notera Z k avec k, s ko et un ensemble H, contenant les indices des h vecteurs qui ont été sélectionnés lors de la dernière itération. Notons m2 et S2 respectivement la moyenne et la matrice de covariance de ces h vecteurs.
3.2 L'algorithme FAST-MCD proposé par Rousseeuw et Van Driessen en 1999 et légèrement modifié est appliqué sur la matrice Z;,k. La version utilisée de cet algorithme tire aléatoirement 250 sous-ensembles de taille (k,+l). Pour chacun, il calcule la moyenne, la matrice de covariance et les distances de Mahalanobis (équation 8) et complète le sous-ensemble par les vecteurs ayant les plus petites distances pour avoir un sous-ensemble contenant h vecteurs. Il applique ensuite la procédure C-Step pour affiner les sous-ensembles. Notons ici que, dans un premier temps, seulement deux itérations C-Step sont appliquées à chacun des 250 sous-ensembles. Les 10 meilleurs sous-ensembles (les ensembles ayant les plus petits déterminants de leurs matrices de covariance) sont ensuite sélectionnés et la procédure itérative (a) et (b) de 3.1 leur est appliquée jusqu'à la convergence.
NotonsZ k avec k s k, l'ensemble de données obtenu à l'issue de l'application de l'algorithme FAST-MCD et m3 et S3 la moyenne et la matrice de covariance des h vecteurs sélectionnés. Si det(S2) < det(S3) alors on continue les calculs en considérant les h vecteurs issues de l'étape 3.1, i.e. m4 = m2 et S, = S2, sinon on considère les résultats obtenus par FAST-MCD, i.e. m4 = m3 et S4 = S3.
3.3 Afin d'accroître l'efficacité statistique, une moyenne pondérée et une matrice de covariance pondérée sont calculées à partir de m4 et S4. D'abord, S4 est multipliée par un facteur de consistance c, calculé comme suit: c= {dm<s, (h) (9) 1 2 xk,e, où {dm s} a... s { d2 s} et sont calculées en utilisant les vecteurs de Z k suivant (n) l'équation (8). Ensuite les distances de Mahalanobis de tous les vecteurs de Z k sont calculées en utilisant m4 et c,S4. Notons ces distances: d,, d2, ..., d,,. La moyenne et la matrice de covariance sont enfin estimées comme suit: wiz i-, m5 = i-1 w; et (10) wr(Z* m5)(Z m5) n Wi i-1 f0 sid, s xk,o,9, 5 il si di > x,o,95 où w, w(di) = S5 n i-1 4. Le but de cette dernière étape est de déduire la moyenne et la matrice de covariance finales. D'abord, une décomposition spectrale de la matrice de covariance S5 est effectuée: S5 = Pz L2 Pz où P2 est une matrice kxk qui contient les vecteurs propres de S5 et L2 une matrice diagonale avec les valeurs propres correspondantes.
La matrice P2 est ensuite projetée dans Nt en appliquant les transformées inverses de celles appliquées tout au long des étapes précédentes, ce qui permet d'avoir la matrice finale des vecteurs propres Pd,k. De même pour la moyenne: m5 est projetés dans r, ce qui permet d'avoir,u. Par ailleurs, la matrice de covariance finale C pourra être calculée à l'aide de l'équation (1).

Claims (17)

REVENDICATIONS
1. Procédé d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit procédé comprenant une phase d'apprentissage et une phase de reconnaissance dudit au moins un visage, caractérisé en ce que ledit procédé d'identification comprend au moins une étape de filtrage desdites images, permettant de sélectionner au moins une image représentative dudit visage à identifier, et en ce que ledit filtrage est réalisé à partir d'au moins un des seuils appartenant au groupe comprenant: - une distance maximale (DRCm) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; - une distance maximale (DOmex) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs.
2. Procédé d'identification selon la revendication 1, caractérisé en ce que ladite étape de filtrage est mise en oeuvre lors de ladite phase d'apprentissage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à ladite au moins une personne, et permet de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, et en ce que ledit au moins un seuil est déterminé à partir de vecteurs associés auxdites images d'apprentissage.
3. Procédé d'identification selon la revendication 2, caractérisé en ce que ladite phase d'apprentissage comprend également une étape de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s).
4. Procédé d'identification selon la revendication 1, caractérisé en ce que ladite étape de filtrage est mise en oeuvre lors de ladite phase de reconnaissance, à partir d'un groupe d'au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et permet de sélectionner au moins une image requête représentative dudit visage à identifier, et en ce que ledit au moins un seuil est déterminé lors de ladite phase d'apprentissage, à partir de vecteurs associés à des images de visage d'apprentissage.
5. Procédé d'identification selon la revendication 1, caractérisé en ce que ledit au moins un seuil est déterminé lors de ladite phase de reconnaissance, à partir de vecteurs associés à un ensemble d'images comprenant au moins deux images de visage associées à ladite au moins une personne, appelées images requêtes, et au moins deux images d'apprentissage représentatives dudit visage à identifier, sélectionnées lors de ladite phase d'apprentissage, et en ce que ladite étape de filtrage est mise en oeuvre lors de ladite phase de reconnaissance, à partir desdites images requêtes et permet de sélectionner au moins une image requête représentative dudit visage à identifier.
6. Procédé d'identification selon l'une quelconque des revendications 4 et 5, caractérisé en ce que ladite phase de reconnaissance comprend également une étape de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit lors de ladite phase d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée lors de ladite phase d'apprentissage, de façon à identifier ledit visage.
7. Procédé d'identification selon la revendication 6, caractérisé en ce que lors de ladite étape de comparaison: on compare la projection de chacun desdits vecteurs associés à chacune desdites images requêtes représentatives à la projection de chacun desdits vecteurs associés à chacune desdites images d'apprentissage représentatives; on détermine, pour chacun desdits vecteurs associés à chacune desdites images requêtes représentatives, quel est le plus proche vecteur associé à une desdites images d'apprentissage représentatives, et à quelle personne, appelée personne désignée, il est associé ; - on identifie ledit visage comme celui de la personne désignée le plus grand nombre de fois.
8. Procédé d'identification selon l'une quelconque des revendications 2, 4 et 5, caractérisé en ce que ladite étape de filtrage desdites images d'apprentissage et/ou ladite étape de filtrage desdites images requêtes met(tent) en oeuvre lesdits deux seuils.
9. Procédé d'identification selon les revendications 2 et 4, caractérisé en ce que, ladite phase d'apprentissage étant mise en oeuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de chacune desdites au moins deux personnes, et en ce que, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à chacune desdites au moins deux personnes.
10. Procédé d'identification selon les revendications 2 et 4, caractérisé en ce que, ladite phase d'apprentissage étant mise en oeuvre pour des images d'apprentissage associées à au moins deux personnes, on détermine lesdits seuils associés aux images d'apprentissage de l'ensemble desdites au moins deux personnes, et en ce que, lors de ladite phase de reconnaissance, lesdites images requêtes sont filtrées à partir desdits seuils associés à l'ensemble desdites au moins deux personnes.
11. Procédé d'identification selon les revendications 2 et 4 ou 5, caractérisé en ce qu'il comprend une première étape de filtrage desdites images d'apprentissage lors de ladite phase d'apprentissage, permettant de sélectionner au moins une image d'apprentissage représentative dudit visage à identifier, et une deuxième étape de filtrage desdites images requêtes, lors de ladite phase de reconnaissance, permettant de sélectionner au moins une image requête représentative dudit visage à identifier.
12. Procédé d'identification selon l'une quelconque des revendications 1 à 11, caractérisé en ce que lesdits seuils sont déterminés à l'issue d'une Analyse en Composantes Principales Robuste (RobPCA) appliquée auxdits vecteurs associés auxdites images d'apprentissage, permettant de déterminer également une moyenne robuste t associée auxdits vecteurs, et une matrice de projection P construite à partir des vecteurs propres d'une matrice de covariance robuste associée auxdits vecteurs, et en ce que lesdits seuils sont associés aux distances suivantes: DO; =llx; Pd, ky;(l DRC; = k y'' 1- 1, où x; est un desdits vecteurs associés auxdites images d'apprentissage, Pd,k est une matrice comprenant les k premières colonnes de ladite matrice de projection P, est le jème élément d'une projection y; dudit vecteur X. à partir de ladite matrice de projection et de ladite moyenne robuste.
13. Système d'identification d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, ledit système comprenant un dispositif d'apprentissage et un dispositif de reconnaissance dudit au moins un visage, caractérisé en ce que ledit système d'identification comprend des moyens de détermination d'au moins un des seuils appartenant au groupe comprenant: - une distance maximale (DRC,,,a,,) tenant au moins compte de l'appartenance de vecteurs associés à au moins certaines desdites images à un nuage constitué par lesdits vecteurs; une distance maximale (DOm87) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs; et des moyens de filtrage desdites images, permettant de sélectionner au moins une image représentative dudit visage à identifier, à partir de l'un au moins desdits seuils.
14. Dispositif d'apprentissage d'un système d'identification d'au moins un visage, à partir d'un groupe d'au moins deux images de visage d'apprentissage associées à au moins une personne, caractérisé en ce qu'il comprend: des moyens d'analyse desdites images d'apprentissage permettant de déterminer, à partir de vecteurs associés auxdites images d'apprentissage, au moins un des seuils appartenant au groupe comprenant: une distance maximale (DRCmax) tenant au moins compte de l'appartenance desdits vecteurs à un nuage constitué par lesdits vecteurs; une distance maximale (DO..) entre lesdits vecteurs et des vecteurs reconstruits après projection desdits vecteurs sur un espace associé audit nuage de vecteurs; - des moyens de filtrage desdites images d'apprentissage à partir de l'un au moins desdits seuils, de façon à sélectionner au moins une image d'apprentissage représentative dudit visage à identifier; des moyens de construction d'un espace vectoriel de description de ladite au moins une personne à partir de ladite ou lesdites image(s) d'apprentissage représentative(s).
15. Dispositif de reconnaissance d'au moins un visage à partir d'un groupe d'au moins deux images de visage associées à au moins une personne, appelées images requêtes, ledit dispositif de reconnaissance appartenant à un système d'identification dudit au moins un visage comprenant également un dispositif d'apprentissage, caractérisé en ce que ledit dispositif de reconnaissance comprend: des moyens de filtrage desdites images requêtes à partir d'au moins un seuil déterminé par ledit dispositif d'apprentissage, de façon à sélectionner au moins une image requête représentative dudit visage à reconnaître; des moyens de comparaison de projections, dans un espace vectoriel de description de ladite au moins une personne construit par ledit dispositif d'apprentissage, de vecteurs associés à ladite au moins une image requête représentative et à au moins une image d'apprentissage représentative sélectionnée par ledit dispositif d'apprentissage, de façon à identifier ledit visage.
16. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution de la phase d'apprentissage du procédé d'identification d'au moins un visage selon l'une quelconque des revendications 1 à 3 et 8 à 12 lorsque ledit programme est exécuté par un processeur.
17. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes de la phase de reconnaissance du procédé d'identification d'au moins un visage selon l'une quelconque des revendications 1 et 4 à 12 lorsque ledit programme est exécuté par un processeur.
FR0503047A 2005-03-29 2005-03-29 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants Pending FR2884007A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0503047A FR2884007A1 (fr) 2005-03-29 2005-03-29 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants
JP2008503505A JP2008537216A (ja) 2005-03-29 2006-03-28 顔画像から顔を識別する方法、ならびに対応する装置およびコンピュータプログラム
EP06708817A EP1864242A1 (fr) 2005-03-29 2006-03-28 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants
US11/910,158 US20080279424A1 (en) 2005-03-29 2006-03-28 Method of Identifying Faces from Face Images and Corresponding Device and Computer Program
PCT/EP2006/061109 WO2006103240A1 (fr) 2005-03-29 2006-03-28 Procédé d'identification de visages à partir d'images de visage, dispositif et programme d'ordinateur correspondants
CNA2006800149452A CN101171599A (zh) 2005-03-29 2006-03-28 从脸图像鉴别脸的方法和相应的设备及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0503047A FR2884007A1 (fr) 2005-03-29 2005-03-29 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants

Publications (1)

Publication Number Publication Date
FR2884007A1 true FR2884007A1 (fr) 2006-10-06

Family

ID=35708620

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0503047A Pending FR2884007A1 (fr) 2005-03-29 2005-03-29 Procede d'identification de visages a partir d'images de visage, dispositif et programme d'ordinateur correspondants

Country Status (6)

Country Link
US (1) US20080279424A1 (fr)
EP (1) EP1864242A1 (fr)
JP (1) JP2008537216A (fr)
CN (1) CN101171599A (fr)
FR (1) FR2884007A1 (fr)
WO (1) WO2006103240A1 (fr)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8085995B2 (en) 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
FR2910668A1 (fr) * 2006-12-21 2008-06-27 France Telecom Procede de classification d'une image d'objet et dispositif correspondant
JP4986720B2 (ja) * 2007-06-07 2012-07-25 株式会社ユニバーサルエンターテインメント 個人識別データ登録装置
US8855360B2 (en) 2008-07-23 2014-10-07 Qualcomm Technologies, Inc. System and method for face tracking
JP5524692B2 (ja) * 2010-04-20 2014-06-18 富士フイルム株式会社 情報処理装置および方法ならびにプログラム
JP5753966B2 (ja) * 2010-08-05 2015-07-22 パナソニックIpマネジメント株式会社 顔画像登録装置および方法
US8655027B1 (en) * 2011-03-25 2014-02-18 The United States of America, as represented by the Director, National Security Agency Method of image-based user authentication
US8965046B2 (en) 2012-03-16 2015-02-24 Qualcomm Technologies, Inc. Method, apparatus, and manufacture for smiling face detection
CN103870728B (zh) * 2012-12-18 2018-06-12 富泰华工业(深圳)有限公司 控制***、控制方法及电脑***
US10002310B2 (en) * 2014-04-29 2018-06-19 At&T Intellectual Property I, L.P. Method and apparatus for organizing media content
KR102010378B1 (ko) * 2014-09-24 2019-08-13 삼성전자주식회사 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치
US9430694B2 (en) * 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10839196B2 (en) * 2015-09-22 2020-11-17 ImageSleuth, Inc. Surveillance and monitoring system that employs automated methods and subsystems that identify and characterize face tracks in video
CN106557728B (zh) * 2015-09-30 2019-06-18 佳能株式会社 查询图像处理和图像检索方法和装置以及监视***
CN105678265B (zh) * 2016-01-06 2019-08-20 广州洪森科技有限公司 基于流形学习的数据降维方法及装置
CN105760872B (zh) * 2016-02-03 2019-06-11 苏州大学 一种基于鲁棒图像特征提取的识别方法及***
KR102221118B1 (ko) * 2016-02-16 2021-02-26 삼성전자주식회사 영상의 특징을 추출하여 객체를 인식하는 방법
CN106778818A (zh) * 2016-11-24 2017-05-31 深圳明创自控技术有限公司 一种基于云计算的智能跟踪***
CN107516105B (zh) 2017-07-20 2020-06-16 阿里巴巴集团控股有限公司 图像处理方法及装置
JP6997140B2 (ja) * 2019-07-03 2022-01-17 パナソニックi-PROセンシングソリューションズ株式会社 情報処理装置、判定方法、およびプログラム
CN112069948A (zh) * 2020-08-25 2020-12-11 辽宁工程技术大学 一种基于改进二维降维的人脸识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030026485A1 (en) * 1999-07-20 2003-02-06 Craig Gotsman Method and system for detecting and classifying objects in an image
US20030161504A1 (en) * 2002-02-27 2003-08-28 Nec Corporation Image recognition system and recognition method thereof, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US6944319B1 (en) * 1999-09-13 2005-09-13 Microsoft Corporation Pose-invariant face recognition system and process

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030026485A1 (en) * 1999-07-20 2003-02-06 Craig Gotsman Method and system for detecting and classifying objects in an image
US20030161504A1 (en) * 2002-02-27 2003-08-28 Nec Corporation Image recognition system and recognition method thereof, and program

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
KIRBY M ET AL: "APPLICATION OF THE KARHUNEN-LOEVE PROCEDURE FOR THE CHARACTERIZATION OF HUMAN FACES", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 12, no. 1, January 1990 (1990-01-01), pages 103 - 108, XP000087785, ISSN: 0162-8828 *
M. HUBERT ET AL.: "ROBPCA: A New Approach to Robust Principal Component Analysis", TECHNOMETRICS, vol. 47, no. 1, February 2005 (2005-02-01), pages 64 - 79, XP002367341, Retrieved from the Internet <URL:http://wis.kuleuven.be/stat/Papers/robpca.pdf> [retrieved on 20060210] *
MENSER B ET AL: "Face detection in color images using principal components analysis", IMAGE PROCESSING AND ITS APPLICATIONS, 1999. SEVENTH INTERNATIONAL CONFERENCE ON (CONF. PUBL. NO. 465) MANCHESTER, UK 13-15 JULY 1999, LONDON, UK,IEE, UK, vol. 2, 13 July 1999 (1999-07-13), pages 620 - 624, XP006501136, ISBN: 0-85296-717-9 *
MOGHADDAM B ET AL: "PROBABILISTIC VISUAL LEARNING FOR OBJECT REPRESENTATION", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 19, no. 7, July 1997 (1997-07-01), pages 696 - 710, XP000698169, ISSN: 0162-8828 *
SWETS D L ET AL: "USING DISCRIMINANT EIGENFEATURES FOR IMAGE RETRIEVAL", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 18, no. 8, August 1996 (1996-08-01), pages 831 - 836, XP000632863, ISSN: 0162-8828 *
TURK M ET AL: "EIGENFACES FOR RECOGNITION", January 1991, JOURNAL OF COGNITIVE NEUROSCIENCE, CAMBRIDGE, MA, US, PAGE(S) 71-86, XP000490270 *

Also Published As

Publication number Publication date
EP1864242A1 (fr) 2007-12-12
JP2008537216A (ja) 2008-09-11
US20080279424A1 (en) 2008-11-13
CN101171599A (zh) 2008-04-30
WO2006103240A1 (fr) 2006-10-05

Similar Documents

Publication Publication Date Title
FR2884007A1 (fr) Procede d&#39;identification de visages a partir d&#39;images de visage, dispositif et programme d&#39;ordinateur correspondants
EP3707676B1 (fr) Procédé d&#39;estimation de pose d&#39;une caméra dans le référentiel d&#39;une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d&#39;ordinateur associé
EP3640843B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
EP2321769B1 (fr) Procédé de reconnaissance de formes et système mettant en oeuvre le procédé
EP1751689A1 (fr) Procede pour la reconnaissance de visages, a analyse discriminante lineaire bidimensionnelle
EP1866834A2 (fr) Système et procédé de localisation de points d&#39;intérêt dans une image d&#39;objet mettant en uvre un réseau de neurones
EP3018615B1 (fr) Procede de comparaison de donnees ameliore
EP3620970B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
WO2012038654A1 (fr) Procede de classification de donnees biometriques
EP3582141B1 (fr) Procédé d&#39;apprentissage de paramètres d&#39;un réseau de neurones à convolution
FR3088467A1 (fr) Procede de classification d&#39;une image d&#39;entree representative d&#39;un trait biometrique au moyen d&#39;un reseau de neurones a convolution
WO2013156374A1 (fr) Procede de reconnaissance d&#39;un contexte visuel d&#39;une image et dispositif correspondant
EP2517151B1 (fr) Codage biometrique
FR3103045A1 (fr) Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif
EP3929809A1 (fr) Procédé de détection d&#39;au moins un trait biométrique visible sur une image d entrée au moyen d&#39;un réseau de neurones à convolution
FR3005777A1 (fr) Procede de reconnaissance vocale visuelle avec selection de groupes de points d&#39;interet les plus pertinents
FR3005776A1 (fr) Procede de reconnaissance vocale visuelle par suivi des deformations locales d&#39;un ensemble de points d&#39;interet de la bouche du locuteur
WO2008081152A2 (fr) Procede et systeme de reconnaissance d&#39;un objet dans une image
WO2011089517A1 (fr) Procede et dispositif de reconnaissance de visages en conditions de poses variables
EP4292013A1 (fr) Dispositif et procede de traitement de donnees videos pour detection du vivant
WO2024002618A1 (fr) Procédé de reconnaissance biometrique
Cho et al. Colorizing Face Sketch Images for Face Photo Synthesis
EP4163866A1 (fr) Procédé, programme d&#39;ordinateur et dispositif de traitement d&#39;images par extraction de composante(s) principale(s) d&#39;une représentation d&#39;images
EP3825915A1 (fr) Procede de classification d&#39;une empreinte biometrique representee par une image d&#39;entree
CN114399802A (zh) 人脸比对方法及装置