METHODE DE DETERMINATION DES MOUVEMENTS D'UN OBJET A PARTIR D'UN FLUX D'IMAGES
DOMAINE DE L'INVENTION
La présente invention concerne le domaine du traitement des images. Plus précisément, l'invention se rapporte à la détermination des mouvements d'un objet dans un flux d'images.
ETAT DE L'ART
La détermination des mouvements d'un objet dans un flux d'images, et plus particulièrement d'un objet animé comme un visage, a notamment des applications dans l'animation d'avatars pour la réalisation par exemple de jeux vidéo et de films cinématographiques.
Un des enjeux techniques principaux dans de telles applications est l'obtention d'un niveau de réalisme suffisant pour ne pas provoquer par exemple 1' inconfort des spectateurs ou des utilisateurs lors de la transposition des mouvements de visages réels en mouvements de visages de personnages virtuels.
Les méthodes actuelles sont basées sur des techniques d'animations manuelles qui consistent à réaliser la transposition par des dessinateurs professionnels. On connaît aussi des dispositifs de capture de mouvements qui utilisent un traitement d'images vidéo mais qui nécessitent de placer précisément des marqueurs par exemple sur le visage de la personne dont on cherche à déterminer les mouvements. De tels dispositifs sont mis dans le commerce par exemple par la marque Vicon®.
L'opération de placement des marqueurs sur le visage est une opération longue et critique pour la suite du traitement et on cherche à s'affranchir de cette opération. Récemment, une méthode de suivi des mouvements de visage sans marqueurs a été proposée dans « Face tracking using canonical correction analysis. In International Conférence on Computer Vision Theory and Applications , pages 396-402, Barcelone, Espagne, Mars 2007». Cependant, la méthode publiée ne permet pas d'obtenir une vitesse de traitement satisfaisante pour une utilisation professionnelle.
La présente invention vise à fournir une méthode de détermination des mouvements d'un objet, et plus particulièrement d'un visage dans un flux d'images sans utiliser de marqueurs et apte à travailler en temps réel.
RESUME DE L'INVEN ION
A cet effet, l'invention propose selon un premier aspect une méthode de détermination des mouvements d'un objet et plus particulièrement d'un visage contenu dans un flux d'images. La méthode comprend une étape d'enregistrement d'une image du flux d'images dans une mémoire tampon et une étape de traitement de l'image par une unité de traitement. Le traitement comprend la détermination d'une modification de la position et/ou de la déformation de l'objet par rapport à une image précédant l'image dans le flux d'images. L'étape de traitement de l'image est effectuée simultanément à une étape d'enregistrement d'une image succédant ladite image dans le flux d'images.
La méthode proposée permet notamment une amélioration des performances et notamment de la rapidité de traitement par la mise en parallèle des opérations
d'enregistrement et de traitement. La méthode permet également de profiter pleinement des capacités des processeurs multi-c urs et ainsi d'obtenir l'animation d'objets ou de personnages virtuels en temps réel.
Dans un mode de réalisation, la méthode comprend en outre une étape de transmission à une unité de contrôle d'une information relative à l'enregistrement de l'image dans la mémoire tampon, une étape de transmission par l'unité de contrôle d'une instruction de début de traitement à l'unité de traitement et une étape de transmission à l'unité de contrôle d'une information relative à la fin du traitement de l'image par l'unité de traitement. Le traitement est mis en œuvre après la réception par l'unité de traitement de l'instruction de traitement. L'instruction de traitement est transmise après que l'unité de contrôle a reçu l'information relative à la fin du traitement de l'image précédant ladite image dans le flux et l'information relative à l'enregistrement de ladite image.
Ceci permet une meilleure synchronisation du traitement au moyen de l'unité de contrôle. La transmission d' informations relative à la fin du traitement à l'unité de contrôle permet notamment d'éviter de transmettre des instructions à l'unité de traitement alors que cette dernière ne peut réagir car elle est occupée à effectuer le traitement d'une image. Ainsi, la supervision de l'unité de traitement par une unité de contrôle permet une amélioration des performances. De plus, la méthode permet l'ajout potentiel d'une ou plusieurs unités de traitements auxiliaires sans modifier le fonctionnement de l'unité de traitement. L'exécution modulaire facilite l'extensibilité. L'unité de contrôle fonctionne comme une
interface et une unité auxiliaire apte à collaborer avec l'unité de contrôle peut être ajoutée sans modification des interactions entre les autres éléments.
Dans un mode de réalisation, la méthode comprend en outre une étape de traitement auxiliaire préalable au traitement (principal) de l'image.
Ceci permet d'améliorer la qualité des images et de faciliter le traitement ultérieur des images en sortie du traitement auxiliaire.
Dans un mode de réalisation, la méthode comprend une étape d'enregistrement d'une image du flux d'images dans une mémoire tampon d'entrée par une unité de lecture et une étape de traitement auxiliaire de l'image par l'unité de traitement auxiliaire. L'étape de traitement auxiliaire de l'image est effectuée simultanément à l'étape d'enregistrement d'une image succédant ladite image dans le flux d'images.
Ceci permet notamment une amélioration des performances par la mise en parallèle des opérations d'enregistrement et de traitement auxiliaire.
Dans un mode de réalisation, la méthode comprend en outre une étape de transmission par l'unité de lecture à l'unité de contrôle d'une information relative à l'enregistrement de l'image dans la mémoire tampon d'entrée et une étape de transmission par l'unité de contrôle d'une instruction de début de traitement auxiliaire à l'unité de traitement auxiliaire. Le traitement auxiliaire est mis en œuvre après la réception par l'unité de traitement auxiliaire de l'instruction de début de traitement auxiliaire, ladite instruction étant transmise après que l'unité de contrôle a reçu l'information relative à l'enregistrement de ladite image .
Ceci permet une meilleure synchronisation par l'unité de contrôle. Ceci soumet en outre le fonctionnement de l'unité de traitement auxiliaire au seul contrôle de l'unité de contrôle et permet de développer l'unité de traitement auxiliaire indépendamment de l'unité de traitement. Ceci permet également d'éviter de transmettre des instructions à l'unité de traitement auxiliaire alors que cette dernière ne peut réagir car elle est occupée à effectuer un traitement auxiliaire. Ainsi, la gestion des performances est améliorée.
Dans un mode de réalisation, la méthode comprend en outre une étape de transmission à l'unité de contrôle d'une information relative à la fin du traitement auxiliaire de l'image par l'unité de traitement auxiliaire. L'étape de transmission de l'instruction est mise en œuvre après que l'unité de contrôle a reçu l'information relative à la fin du traitement auxiliaire de l'image précédant ladite image dans le flux.
Ceci permet de procéder au traitement d'une image selon le résultat du traitement auxiliaire d'une image précédant ladite image dans le flux.
Le traitement auxiliaire peut comprendre par exemple une égalisation du contraste et/ou une correction d' aberrations des images pour compenser des imperfections dues par exemple à une acquisition des images dans un éclairage non uniforme. Il peut comprendre également la détection de points caractéristiques, la conversion d'images couleur en niveaux de gris, la binarisation de l'image, un filtrage, etc.
Lorsqu'une pluralité de mémoires tampons d'entrée sont à disposition pour l'enregistrement des
images, la méthode peur comprendre en outre une étape d'allocation de la mémoire tampon d'entrée par l'unité de contrôle. L'instruction de début de traitement auxiliaire comprend une information relative à la mémoire tampon allouée.
Ceci permet de mettre en œuvre le traitement à partir de plusieurs sources vidéo.
Dans un mode de réalisation, l'instruction de début de traitement comprend une instruction de réactivation si l'unité de traitement est en veille.
Dans un mode de réalisation, l'instruction de début de traitement auxiliaire comprend une instruction de réactivation si l'unité de traitement auxiliaire est en veille.
Ceci permet de stimuler l'unité de traitement et/ou l'unité de traitement auxiliaire afin qu'elle soit disponible pour traiter une image. La mise en veille de l'unité de traitement et/ou l'unité de traitement auxiliaire peut être due à une différence de vitesse entre l'enregistrement des images dans la mémoire tampon et le traitement des images. Par exemple, si les images proviennent d'une caméra haute définition, l'enregistrement des images peut être une étape plus longue que le traitement et/ou le traitement auxiliaire et l'unité de traitement correspondante peut se mettre en veille entre le traitement de deux images successives.
Dans un mode de réalisation, le flux d' images provient d'une caméra vidéo ou d'une unité de stockage de données .
Dans un mode de réalisation la méthode comprend en outre la construction d'une image résultat sur la base de la modification de la position et/ou de la déformation de l'objet déterminée dans ladite image et l'affichage de
l'image résultat.
Dans le cas de la détermination des mouvements d'un visage, ceci permet par exemple d'utiliser la détermination de la modification de position et/ou d'expression du visage dans le flux d'images pour construire des images comprenant des personnages virtuels reproduisant les mouvements du visage. La détermination des mouvements du visage peut permettre également d' animer un masque dont la morphologie est adaptée au visage et qui se superpose sur le visage dans l'image. Ceci permet par exemple de produire une image comprenant un masque qui reproduit les mouvements du visage contenu dans le flux d'images. Par exemple, l'image résultat peut aussi superposer un tel masque et le dit visage.
L'invention propose selon un deuxième aspect un produit programme d' ordinateur adapté pour mettre en œuvre la méthode précédemment décrite.
L' invention propose selon un troisième aspect un système pour la mise en œuvre de la méthode selon le premier aspect.
Selon une variante, le système comprend un ordinateur avec une mémoire et une unité centrale de traitement, ladite unité centrale comprenant une pluralité d'unités de calculs pour la mise en œuvre de la méthode.
Par exemple l'unité centrale est un processeur multi-cœur .
BREVE DESCRIPTION DES FIGURES
D' autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit, illustrée par les figures sur lesquelles :
La figure 1 illustre un système pour la mise en œuvre de l'invention dans un mode de réalisation.
La figure 2 représente un synoptique des étapes mises en œuvre selon une variante de réalisation de la méthode selon l'invention.
Les figures 3A à 3C représentent des diagrammes temporels illustrant la synchronisation d'étapes de la méthode selon différents modes de réalisation.
Les figures 4A-4D illustrent deux images d'un visage et deux images résultats construites sur la base de la position et de l'expression du visage déterminées dans lesdites images du visage.
DESCRIPTION DETAILLEE
La figure 1 illustre généralement un système pour la mise en œuvre de l'invention selon un mode de réalisation. Le système comprend selon cet exemple un ordinateur 1, une caméra vidéo 2, une première unité de stockage de données informatiques 3 (par exemple un lecteur de disque dur externe ou une clé USB) , une unité d'affichage 4 et une deuxième unité de stockage de données informatiques 5 (par exemple un graveur de disque dur) . L'ordinateur 1 comprend généralement une unité centrale de traitement de données informatiques, un disque dur et une carte mémoire (non représentés) .
Un flux d' images brutes provenant de la caméra vidéo 2 et/ou du premier dispositif de stockage de données informatiques 3 est traité par l'unité centrale de traitement et un flux d'images résultats, obtenu sur la base du traitement du flux d'images brutes, peut être affichée sur l'unité d'affichage 4 et/ou stocké sur la deuxième unité de stockage 5. Le flux d'images brutes
peut également provenir d'un flux récupéré sur un serveur par un réseau informatique, réseau Internet ou réseau local. Il en est de même du flux d'images résultats. Les images du flux d' images brutes contiennent un visage dont on cherche à déterminer les mouvements dans un espace tridimensionnel .
La figure 2 illustre selon un exemple de réalisation un synoptique du traitement du flux d' images brutes par l'unité centrale de traitement de données informatiques. Avantageusement, l'unité centrale de traitement est un processeur multi-c ur comprenant un ensemble d'unités de calcul gravées sur la même puce auxquelles on a assigné un certain nombre de fonctions (UL, UC, UTA, UT) . Selon une variante, chaque unité de calcul peut être gravée sur une carte électronique indépendante .
Parmi les unités de calcul, une unité de contrôle 11 permet la synchronisation des autres unités de calcul. Dans l'exemple de la figure 2, l'unité de contrôle 11 coordonne le fonctionnement d'une unité de lecture 12, d'une unité de traitement 13 pour le traitement principal des images et d'une unité de traitement auxiliaire 14.
Dans l'exemple de la figure 2, l'unité de lecture 12 procède à la lecture et à l'enregistrement des images brutes acquises par la caméra vidéo 2 sur une mémoire tampon d'entrée 22. Le flux d'images brutes issu de la caméra 2 forme une séquence vidéo d' images successives. L'unité de lecture 12 informe l'unité de contrôle 11 de l'enregistrement de chaque nouvelle image par la transmission d'une information IAi à l'unité de contrôle 11. Ceci permet notamment à l'unité de contrôle 11 de contrôler la réactivation de l'unité de traitement
auxiliaire 14. En effet, lorsque l'enregistrement des images est plus long que le traitement des images, par exemple quand les images proviennent de caméras haute définition, l'unité de traitement auxiliaire 14 peut se mettre par défaut dans un mode de veille afin de permettre à d'autres programmes d'accéder aux capacités de calcul de l'unité centrale de traitement.
L'unité de traitement auxiliaire 14 traite le flux d'images brutes en parallèle de l'enregistrement des images brutes dans la mémoire tampon d'entrée 22. L'unité de contrôle 11 commande l'unité de traitement auxiliaire 14 par la transmission d'une instruction IA2 de début de traitement auxiliaire. L'instruction IA2 est transmise après la réception par l'unité de contrôle 11 de l'information IAi relative à l'enregistrement de l'image brute. L'unité de traitement auxiliaire 14 informe l'unité de contrôle 11 de la fin du traitement auxiliaire de l'image brute par l'envoi d'une information IA3 relative à la fin du traitement auxiliaire. Le traitement des images brutes est successif et le traitement d'une image est effectué après que l'unité de contrôle 11 a reçu l'information relative à la fin du traitement auxiliaire de l'image brute précédant directement ladite image brute dans le flux.
Un des buts de l'unité de traitement auxiliaire peut être d'améliorer la qualité des images brutes avant traitement principal par l'unité de traitement 13. Par exemple, l'unité de traitement auxiliaire 14 peut égaliser le contraste des images brutes et/ou éliminer des aberrations dues à la caméra. Le traitement auxiliaire peut également comprendre la calcul de l'histogramme d'une image, la détection de points caractéristiques, la conversion d'images couleur en
niveaux de gris, la binarisation, une étape de filtrage ou tout autre étape classique en traitement d'images. Alternativement, le traitement auxiliaire peut permettre de séquencer les étapes de traitement pour que chaque étape de traitement ne soit pas plus longue que l'étape d' enregistrement .
La séquence des images du flux d' images en sortie de l'unité de traitement auxiliaire 14 (aussi appelé flux d'images dans la demande) correspond ainsi à la séquence des images du flux d'images brutes. Après le traitement, l'unité de traitement auxiliaire 14 enregistre l'image du flux d'images ainsi traitée sur une mémoire tampon 24 et transmet une information Ii relative à l'enregistrement à l'unité de contrôle 11 qui va pouvoir envoyer l'instruction I2 de début de traitement à l'unité de traitement principale 13 dès que l'unité de traitement 13 sera disponible.
Selon une variante, il n'y a pas de traitement auxiliaire et le traitement principal est réalisé directement sur le flux d'images brutes, chaque image étant préalablement lue et enregistrée par l'unité de lecture sur la mémoire tampon d'entrée 22. Dans ce cas, l'unité de contrôle assure la synchronisation de l'unité de lecture 12 et de l'unité de traitement 13. Alternativement, les unités de lecture et de traitement se synchronisent réciproquement sans qu'une unité de contrôle ne soit nécessaire.
Selon une autre variante, il peut y avoir plusieurs unités de traitement auxiliaire, permettant de pré-traiter les images avant le traitement principal. Cela peut permettre par exemple de limiter le temps de traitement de chaque image par chaque unité de traitement à une durée inférieure ou égale au temps de lecture et
d'enregistrement d'une image issue du flux d'images brutes et d'assurer ainsi un fonctionnement en temps réel. Dans ce cas, l'unité de contrôle synchronise l'unité de lecture et l'ensemble des unités de traitement auxiliaires et principal pour assurer en parallèle l'enregistrement des images à partir du flux d'images brutes, les traitements auxiliaires et le traitement principal .
Le traitement principal 13 comprend la détermination d'une modification de la position et/ou de la déformation d'un objet par rapport à une image précédant directement ladite image dans le flux d'images. Il peut s'agir par exemple de la détermination de la position et/ou de la modification de l'expression d'un visage.
Dans une phase préalable à la mise en œuvre de la méthode, un modèle géométrique tridimensionnel (aussi appelé masque dans la présente demande) peut-être superposé sur une image de référence contenant l'objet, par exemple un visage, dont on cherche à suivre les mouvements et une étape d'apprentissage est mise en œuvre. L'étape d'apprentissage consiste à élaborer une matrice de correspondances qui associe des perturbations de la position et/ou de l'expression du masque avec des variations de texture entre la portion de l'image de référence située sous le masque dans l'état superposé au visage et la portion de l'image de référence située sous le masque dans l'état perturbé.
Par exemple, la superposition sur l'image de référence peut être effectuée manuellement par un utilisateur. La superposition sur le visage peut comprendre un paramétrage qui permet d' adapter le masque tridimensionnel à la morphologie du visage dont on
cherche à suivre les mouvements. Par exemple, le masque polygonal tridimensionnel peut prévoir notamment que la position verticale des sourcils, du nez, de la bouche, la distance entre les yeux soient paramétrés pour le visage qu'on cherche à suivre.
Le traitement est effectué par la suite par récurrence, à partir d'une image sur laquelle le masque est superposé au visage et en estimant la modification de position et/ou d'expression par rapport à l'image précédente sur la base de la matrice de correspondances.
Plus de détails sur des méthodes de traitements pouvant être mises en œuvre sont par exemple donnés dans « Linear tracking of pose and facial features. In 10th IAPR Conférence on Machine Vision Applications , Tokyo, Japon, Mai 2007 ».
L'unité de traitement 13 traite une image enregistrée dans la mémoire tampon à réception d'une information I2 de début de traitement provenant de l'unité de contrôle 12. Après le traitement, l'unité de traitement 13 informe l'unité de contrôle 12 par la transmission d'une information I3 relative à la fin du traitement. L'unité de traitement 13 traite le flux d'images en parallèle de l'enregistrement des images brutes et du traitement auxiliaire.
L'unité de traitement 13 peut également construire et afficher sur l'unité d'affichage 4 une image résultat comprenant par exemple une superposition de l'image traitée et du masque dont la position et l'expression est modifiée selon la position et l'expression déterminée par le traitement. Dans un mode de réalisation, l'image résultat peut également être stockée sur la deuxième unité de stockage de données informatiques 5.
Les figures 3A à 3C illustrent des diagrammes temporels des étapes d'enregistrement El, de traitement auxiliaire E2 et de traitement E3 pour des images consécutives du flux d'images brutes, selon trois exemples. L'étape El (symbolisée par un remplissage quadrillé) comprend l'acquisition d'images brutes par la caméra 2 et l'enregistrement des images brutes sur la mémoire tampon d'entrée 22. L'étape E2 (symbolisée par un remplissage hachuré) comprend le traitement auxiliaire des images brutes et l'enregistrement sur la mémoire tampon 24. L'étape E3 (symbolisée par un remplissage plein) comprend le traitement principal des images. Les étapes E1-E3 sont mises en œuvre en parallèle, c'est-à- dire de façon synchrone. Le traitement principal El d'une image est consécutif au traitement auxiliaire E2 de l'image brute correspondante et est mis en œuvre après que l'image précédant ladite image a été traitée. Le traitement auxiliaire d'une image brute est consécutif à l'enregistrement de ladite image brute sur la mémoire tampon d'entrée.
Dans l'exemple de la figure 3A, le temps de traitement cumulé des étapes de traitement E2 et E3 n'est pas plus grand que l'étape d'enregistrement El. En conséquence, le traitement d'une image est fait pendant l'enregistrement de l'image lui succédant directement dans le flux. En comparaison avec un traitement séquentiel classique des étapes E1-E3, dans lequel l'enregistrement d'une image n'est faite qu'après que le traitement de l'image la précédant soit finie, le traitement en parallèle des étapes E1-E3 dans l'exemple de la figure 3A permet de terminer six unités de temps plus tôt le traitement de la troisième image.
Dans l'exemple de la figure 3B, le temps cumulé
de traitement des étapes de traitement E2 et E3 est plus long que l'étape d'enregistrement El mais le temps de chacune des étapes E2 et E3 est plus court ou égal. En conséquence, on observe un débordement, le traitement principal E3 d'une image se faisant pendant la fin de l'enregistrement de l'image lui succédant directement dans le flux et le début de l'enregistrement de l'image après celle la succédant directement. Cependant, le traitement continue à se faire en temps réel, et en comparaison avec un traitement séquentiel, le traitement en parallèle dans l'exemple de la figure 3B permet de terminer 13 unités de temps plus tôt le traitement de la troisième image.
Dans l'exemple de la figure 3C, l'étape de traitement auxiliaire E2 est plus courte que l'étape d'enregistrement El mais l'étape de traitement principal E3 est plus longue que l'étape d'enregistrement El. Dans ce cas, on observe un décalage dans le traitement des images par rapport à l'enregistrement, et en conséquence, l'accumulation d'un retard. Bien que même dans cet exemple, le traitement en parallèle permet de terminer 12 unités de temps plus tôt qu'un traitement séquentiel le traitement de la troisième image, cette configuration est moins favorable que celle des exemples 3A et 3B et l'on pourrait diviser le traitement principal en un second traitement auxiliaire et un nouveau traitement principal, de telle sorte que chaque étape de traitement soit plus courte que l'étape d'enregistrement.
Les figures 4A et 4B illustrent deux images du flux d'images contenant un visage 6 et les figures 4B et 4D illustrent deux images résultats respectivement construites sur la base de la détermination de la position et de l'expression du visage 6 dans les images
4A-B . Sur les images 4C et 4D, un masque 7 est superposé sur le visage 6. Le masque 7 reproduit l'expression du visage 6. Le masque 7 peut être le masque tridimensionnel utilisé pour déterminer la modification de la position et de l'expression du visage 6 d'après la méthode décrite précédemment. Dans un autre mode de réalisation, la détermination de la position et de l'expression du visage d'un personnage réel permet d'animer un masque d'un personnage virtuel. Un tel masque peut être obtenu par une déformation du masque tridimensionnel utilisé pour déterminer la modification de la position et de l'expression du visage du personnage réel. Dans un tel mode de réalisation, une image résultat peut être construite en affichant le masque du personnage virtuel dans la position et l'expression déterminée pour le personnage réel. On obtient ainsi en temps réel une animation réaliste du personnage virtuel.
Bien que décrite à travers un certain nombre d'exemples de réalisation, la méthode et le système selon l'invention comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon évidente à l'homme de l'art, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l'invention telle que définie par les revendications qui suivent.