PROCEDE D'IDENTIFICATION D'UN OBJET DANS UNE ARCHIVE
VIDEO
DESCRIPTION
DOMAINE TECHNIQUE
L' invention se situe dans la recherche d' informations dans une archive vidéo et se rapporte plus spécifiquement à un procédé et à un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité d' images acquises sur un réseau de caméras. L'invention concerne également un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour mettre en œuvre le procédé selon l'invention.
ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les bases de données modernes permettent d'archiver de plus en plus d'informations de différents types (données, texte, audio, vidéo...) . L'efficacité de l'exploitation d'une base dépend, notamment, du modèle utilisé pour structurer les données dans la base. Dans un modèle hiérarchique, l'information est organisée de manière arborescente selon une hiérarchie, accessible uniquement à partir de la racine de cette arborescence.
Le défaut principal de cette représentation provient du fait que le point d'accès à l'information est unique et est constitué par la racine de l'arbre hiérarchique, d'où des problèmes dans la recherche d' informations .
Les données peuvent également être organisées selon un modèle réseau sous forme de graphe où les entités archivées sont reliées entre elles à l'aide de pointeurs logiques. On connaît également des bases de données orientées objets qui sont capables de stocker une multitude d'informations dans des objets tels que par exemple une fiche individuelle, une machine, une ressource... à laquelle on associe des valeurs et des attributs.
Plusieurs recherches ont proposé un modèle sémantique pour les bases de données dans lequel les données sont organisées selon un schéma conceptuel (concept map en anglais) consistant en une représentation d'un ensemble de concepts reliés sémantiquement entre eux. Toutefois, aucun modèle sémantique n'est encore disponible.
Quel que soit le type de base de données, un problème fondamental provient du fait qu' il est particulièrement difficile d'identifier rapidement un objet dans une archive vidéo d'une base de données contenant un grand nombre d'images, particulièrement lorsque l'on dispose de très peu d'informations sur l'objet recherché. Une telle situation se présente par exemple lors de la recherche, à partir d'un simple signalement, d'un individu non préalablement identifié, dans une archive de vidéosurveillance contenant des milliers d'heures d'enregistrement.
Dans ce contexte, il est actuellement nécessaire de visionner manuellement toutes les archives vidéo enregistrées.
Outre le fait que ce mode opératoire soit excessivement fastidieux et le deviendra d'autant plus avec la multiplication des caméras dans les réseaux de caméras de télésurveillance et la densification de ces réseaux, il est inadapté aux situations d'urgence en cas de recherche d'un individu en fuite. De plus, il implique des temps d'analyse prohibitifs incompatibles avec la nécessité de faire rapidement progresser les enquêtes .
Un but de l'invention est d'optimiser la navigation dans une telle base de données en automatisant le dépouillement afin d'accélérer la procédure de recherche dans une archive vidéo.
Un autre but de l'invention est de permettre à un opérateur humain d' avoir accès à des résumés visuels structurés des objets présents dans une base de données vidéo hétérogène.
Un autre but de l'invention est de fournir à l'opérateur humain des outils optimisés de navigation dans la base de données grâce à une stratégie de recherche interactive.
EXPOSÉ DE L'INVENTION
Ces buts sont atteints au moyen d'un procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d' images acquises sur un réseau de caméras, comportant une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase
de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable (s) par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
Selon une autre caractéristique de l'invention, l'étape de mesure de similitude comporte les étapes suivantes :
- estimer la compatibilité de la caractérisation sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou,
- estimer la compatibilité spatio¬ temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire et n'ayant aucune caractéristique incompatible à celle de l'objet à identifier,
Préférentiellement , le procédé selon l'invention comporte en outre une étape consistant à affecter à chaque mesure de similitude un coefficient de vraisemblance. En outre, le procédé selon l'invention comporte une étape consistant à fusionner les résultats des étapes de la mesure de similitude de manière à définir une mesure unique unifiée de similitude, permettant de définir une distance dans l'espace des objets à identifier.
De plus, le procédé selon l'invention comporte une structuration dynamique de cet espace des objets d'intérêt, au moyen de la distance définie précédemment, de manière à pouvoir naviguer de façon interactive dans l'archive vidéo selon un arbre hiérarchique .
L'invention s'applique dans la recherche d'une personne humaine dans laquelle ledit objet à identifier est une personne humaine pour laquelle on dispose uniquement d'un signalement sommaire. Dans cette application, la caractéristique sémantique de ladite personne humaine consiste en une caractéristique physique visible et/ou en un accessoire visible.
L' invention est particulièrement avantageuse pour rechercher un suspect dans une archive vidéo comportant plusieurs séquences vidéo prises par plusieurs caméras réparties dans un espace couvert par un réseau de caméras de télésurveillance.
Le procédé selon l'invention est mis en œuvre par un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité
d'images acquises sur un réseau de caméras, caractérisé en ce qu' il comporte un module de caractérisation de l'objet à identifier et un module de recherche dudit objet dans ladite archive, ledit module de caractérisation comportant des moyens pour définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ledit module de recherche comportant des moyens pour filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, des moyens pour extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, des moyens pour définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et des moyens pour mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio¬ temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
Préférentiellement , lesdits moyens de mesure de similitude comportent : - un premier module de calcul configuré pour estimer la compatibilité de la caractéristique sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, - un deuxième module de calcul configuré pour estimer la compatibilité spatio-temporelle du
parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire à celle de l'objet à identifier. Le procédé selon l'invention est implémenté dans ledit dispositif par un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu' il est exécuté sur un ordinateur, pour identifier un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, ledit programme d'ordinateur comportant des instructions pour réaliser une phase de caractérisation de l'objet à identifier et des instructions pour réaliser une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes sur le parcours spatio-
temporel de l'objet à identifier dans l'espace couvert par le réseau de caméras.
BRÈVE DESCRIPTION DES DESSINS
D'autres caractéristiques et avantages de l'invention ressortiront de la description qui suit, prise à titre d'exemple non limitatif, en référence à la figure annexée.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS
L' invention sera décrite dans la cadre d'une application particulière dans laquelle on considère un réseau étendu de caméras de vidéosurveillance existant, comme par exemple celui d'un réseau de transport urbain ou celui d'un aéroport.
On se place dans le cadre typique d'une enquête suite à un incident (agression, vol, acte terroriste) .
On considère également que plusieurs témoins fournissent une description d'un suspect.
L'objectif est alors de retrouver rapidement des images de l'incident, si elles existent, et de retrouver le parcours complet du suspect dans la zone couverte par le réseau de caméras pour en déterminer le parcours spatio-temporel et pour l'identifier.
L'approche classique consiste à visionner les images prises par les caméras proches du lieu indiqué de l'incident et à des instants proches de celui indiqué par les témoins afin de repérer l'incident dans l'archive vidéo filmé.
L'approche proposée par la présente invention consiste à exploiter les signalements donnés par les témoins pour systématiser la recherche du
suspect et pour filtrer les données avant d'optimiser la recherche des images dans l'archive de vidéosurveillance .
A cet effet, la description du suspect fournie par les témoins est exploitée pour définir des informations sémantiques sur le suspect. Ainsi, ce dernier peut par exemple être grand, très mince, porter un long manteau noir et des lunettes de soleil, avec une barbe et les cheveux longs. Parmi ces caractéristiques, certaines sont exploitables par le procédé selon l'invention et programmées directement dans le système.
Ce dernier effectue automatiquement un prétraitement de l'ensemble des données vidéo présentes dans l'archive. Ce prétraitement comporte les étapes suivantes :
- analyser tous les objets en mouvement et les pister en prenant notamment en compte les occlusions et les arrêts ; - détecter les personnes dans les images de l'archive,
- caractériser chacune des personnes identifiées grâce à des algorithmes spécialisés qui, à partir d'une entrée spécifiée, donnent en sortie une liste d'attributs sémantiques et pour chaque attribut une mesure de confiance, de probabilité et/ou de plausibilité .
Dans un mode préféré de réalisation de l'invention, la détection des mouvements est réalisée par modélisation de la scène par des mélanges de gaussiennes (le fond étant fixe) , et le pistage est réalisé au moyen d'un filtre de Kalman, puis complété
par une analyse locale en utilisant des descripteurs locaux de type SIFT ou SURF par exemple, voire des modélisations plus simples et plus ponctuelles, afin de résoudre les ambiguïtés dues aux occlusions. Dans ce mode de réalisation, la détection des personnes est obtenue par exemple en détectant les visages par utilisation des techniques à base de cascades de classifieurs telle que Adaboost® et de filtres de Haar, puis éventuellement en remontant à l'enveloppe corporelle complète par des analyses de formes avec, éventuellement, des postulats sur des ratios physionomiques ou détecteurs d' individus à base de techniques d'apprentissage.
Préférentiellement , les algorithmes spécialisés utilisés pour caractériser chacune des personnes sont par exemple des classifieurs capables d' indiquer si un individu a des cheveux longs ou courts, porte ou non une barbe, présente un visage très arrondi ou plutôt allongé, affiche de l'embonpoint ou dispose d'une silhouette svelte, etc.
Avantageusement, une mesure de fiabilité de la réponse est fournie pour chacune des informations extraites. Ces caractérisations (ou descripteurs extraits des images) sont directement interprétables par un opérateur humain et peuvent être mises directement en relation avec les informations sémantiques recueillies lors d'un témoignage. En outre, elles sont calculées même sur des images à basse résolution. IiI n'est en effet pas nécessaire d'avoir des centaines de pixels de large sur un
visage pour déterminer si une personne porte des lunettes .
Dans le mode préféré de réalisation, les classifieurs sont obtenus selon la méthode décrite ci-après:
- on extrait des descripteurs images localement sur les vignettes extraites (par exemple, pour déterminer si une personne porte une barbe, on s'intéresse à la moitié inférieure du masque de détection du visage) ; ces descripteurs peuvent être par exemple des histogrammes de couleurs, de gradients, des propriétés de répartition spatiale caractérisant les textures, des réponses à des filtres (de Gabor par exemple) , etc; - on construit ensuite des classifieurs par apprentissage statistique (machine learning) afin d' indiquer quels visages disposent de la caractéristique « barbe » ; une approche alternative consiste à apprendre des mesures de distance spécifiques à ces caractéristiques, puis à exploiter ces distances spécifiques pour déterminer la proximité ou la différence entre deux visages sur certains aspects sémantiques. La mesure de fiabilité peut être fournie directement par le classifieur. Elle peut également être modélisée a posteriori en traduisant par exemple les sorties précédentes en probabilités. De plus, il est également possible de faire intervenir des critères sur la qualité des images de l'archive pour déterminer si l'estimation du trait sémantique sur une vignette est fiable ou pas. Ainsi, une image très bruitée ou très altérée
par des artefacts de compression est beaucoup plus délicate à analyser, et dans ce cas les estimations sont naturellement moins sûres et moins fiables. - Lorsque l'on dispose d'informations spatio- temporelles permettant de relier des caméras, celles- ci sont exploitées pour établir des premiers liens entre les observations faites dans diverses caméras.
Ainsi, si l'on connaît les positionnements relatifs des différentes caméras et des emprises des champs de vision, il est possible de mettre en place des critères de compatibilités spatiales et temporelles entre les mouvements dans les différentes caméras ; cela permet notamment de dire qu'une entité dont on a mesuré la vitesse globalement constante ne peut pas apparaître avant une certaine date dans une vidéo et apparaîtra vraisemblablement autour d'une date prévisible, de part la connaissance de la vitesse de déplacement. Les contraintes de compatibilité spatio¬ temporelles peuvent être binaires (une personne ne peut pas être en deux endroits en même temps) ou floues (valeur flottante de confiance, i.e. plus ou moins de probabilité) . Grâce à ces contraintes, des observations entre plusieurs caméras peuvent être mises en correspondance, des relations plus ou moins complexes et fiables sont donc mises en place entre toutes les entités de la base.
A partir de ce point, l'archive de vidéosurveillance est représentée par une base de données sémantiques associées à chaque individu vu dans au moins l'une des vidéos.
La structuration de la base de données sémantiques comporte les étapes suivantes :
- On exploite le signalement transmis par les témoins. Ce signalement comporte des caractérisations sémantiques, avec éventuellement des mesures de confiance associées en fonction des souvenirs des témoins et de la cohérence des déclarations ;
- on filtre, la base de données, à partir desdites caractéristiques sémantiques en ne conservant que les individus présentant ces traits caractéristiques en supprimant tous les individus ne présentant pas ces traits;
- on regroupe de manière hiérarchique tous les individus ayant des apparences semblables, en d'autres termes, on regroupe les individus sur des critères de similarité en établissant pour chaque groupe et pour chaque sous-groupe une caractérisation commune des individus du groupe. Etant donné que les mesures de similarité entre individus se basent sur des critères sémantiques, le regroupement hiérarchique peut également être qualifié de sémantique. Ainsi deux images ne sont pas groupées uniquement du fait qu'elles se ressemblent (deux individus portant exactement les mêmes vêtements) mais aussi parce qu'elles présentent une ou plusieurs informations descriptives communes (deux individus portant une barbe et des lunettes de soleil, par exemple) . Avantageusement, la structuration de la base de données peut être dynamique. A cet effet, il suffit d'ajouter, supprimer ou d'adapter des critères sémantiques pour que la structuration hiérarchique
puisse être mise à jour pour refléter les attentes de l'opérateur. Ainsi, il est possible de nuancer la fiabilité d'une information de corpulence ou ajouter une nouvelle information sur la forme du visage et le port d'une casquette. Il est par ailleurs envisageable de proposer automatiquement de nouvelles structuration à l'utilisateur.
Une fois la base de données structurée, l'utilisateur peut naviguer efficacement dans la base de données en fonction des individus et de leurs caractéristiques et non plus en fonction des caméras et du défilement du temps.
Lorsqu'un individu est désigné, la séquence vidéo correspondante peut être visualisée ; cette désignation permet de spécifier plus précisément l'apparence visuelle, qui permet de compléter les mesures de similarité. Par ailleurs, elle fournit une information spatio-temporelle sur la localisation de l'individu. Ainsi, la base de données déjà filtrée est à nouveau filtrée pour supprimer tous les individus dont les positionnements et les dates d'acquisition ne correspondent pas avec les contraintes spatio-temporelles du déplacement normal de l'individu désigné ; Les individus restants sont ordonnés selon une combinaison de facteurs sémantiques, de caractéristiques d'apparence et de la probabilité qu'il s'agisse bien de l'individu désigné, grâce aux contraintes spatio-temporelles sur le déplacement (une distance pouvant être estimée, une vitesse probable pouvant être calculée et une vitesse maximale définie) .
L'utilisateur peut alors parcourir cette liste ordonnée et effectuer très efficacement et très rapidement le pistage (tracking) et le back-tracking (qui consiste à revenir dans le temps) de l'individu désigné, en parcourant l'archive via les contraintes spatio¬ temporelles, les propriétés sémantiques et les critères d'apparence, sans avoir à se préoccuper de la sélection des caméras ou de l'horodatage des données.
La figure annexée décrit les étapes principales du procédé selon l'invention dans le cadre de l'application décrites ci-dessus.
Au cours de la phase Tl des images d'une scène sont enregistrées (étape 2) par un réseau de caméra 4 comportant plusieurs caméras réparties géographiquement sur une zone surveillée.
A l'étape 6, on sélectionne une plage temporelle au cours de laquelle les images enregistrées seront analysées.
Au cours de la phase T2, on détecte les individus dans les images enregistrées (étape 8) et on génère (étape 10) des imagettes des individus détectés. Au cours de la phase T3, on extrait (étape 12) des caractéristiques sémantiques desdites imagettes. Celles-ci sont ensuite codées et indexées. A l'étape 14, les imagettes présentant une ou plusieurs informations descriptives communes sont groupées. Un fichier comportant un résumé visuel des images est généré à l'étape 16, puis affiché à l'étape 18.
La phase T4 décrit l'exploitation par un opérateur 20 de la base de données constituée au cours des phases Tl à T3.
A l'étape 22, l'opérateur désigne la plage temporelle de l'événement filmé.
A l'étape 24, l'opérateur fournit, via une interface utilisateur, des attributs de l'individu recherché. Le système affiche (étape 26) les images filtrées à partir de la base de données structurée générées au cours des étapes précédentes.
Le mode de réalisation particulière décrite ci-dessus est appliqué aux individus. Le concept est généralisable à d'autres entités tels que des véhicules par exemple.