FR2935498A1 - Procede d'identification d'un objet dans une archive video. - Google Patents

Procede d'identification d'un objet dans une archive video. Download PDF

Info

Publication number
FR2935498A1
FR2935498A1 FR0855737A FR0855737A FR2935498A1 FR 2935498 A1 FR2935498 A1 FR 2935498A1 FR 0855737 A FR0855737 A FR 0855737A FR 0855737 A FR0855737 A FR 0855737A FR 2935498 A1 FR2935498 A1 FR 2935498A1
Authority
FR
France
Prior art keywords
identified
semantic feature
archive
images
video archive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0855737A
Other languages
English (en)
Other versions
FR2935498B1 (fr
Inventor
Marc Sturzel
Frederic Furie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus Group SAS
Original Assignee
European Aeronautic Defence and Space Company EADS France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Aeronautic Defence and Space Company EADS France filed Critical European Aeronautic Defence and Space Company EADS France
Priority to FR0855737A priority Critical patent/FR2935498B1/fr
Priority to US13/059,962 priority patent/US8594373B2/en
Priority to CN200980133643.0A priority patent/CN102187336B/zh
Priority to EP09809332A priority patent/EP2316082A1/fr
Priority to PCT/EP2009/060960 priority patent/WO2010023213A1/fr
Publication of FR2935498A1 publication Critical patent/FR2935498A1/fr
Application granted granted Critical
Publication of FR2935498B1 publication Critical patent/FR2935498B1/fr
Priority to IL211129A priority patent/IL211129A0/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

L'invention concerne un procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras comportant une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible, même sur des images à basse résolution, de ladite archive vidéo.

Description

1 PROCEDE D'IDENTIFICATION D'UN OBJET DANS UNE ARCHIVE VIDEO
DESCRIPTION DOMAINE TECHNIQUE L'invention se situe dans la recherche d'informations dans une archive vidéo et se rapporte plus spécifiquement à un procédé et à un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras.
L'invention concerne également un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour mettre en oeuvre le procédé selon l'invention. ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les bases de données modernes permettent d'archiver de plus en plus d'informations de différents types (données, texte, audio, vidéo...). L'efficacité de l'exploitation d'une base dépend, notamment, du modèle utilisé pour structurer les données dans la base.
Dans un modèle hiérarchique, l'information est organisée de manière arborescente selon une hiérarchie, accessible uniquement à partir de la racine de cette arborescence. Le défaut principal de cette représentation provient du fait que le point d'accès à l'information est unique et est constitué par la racine de l'arbre hiérarchique, d'où des problèmes dans la recherche d'informations. 2 Les données peuvent également être organisées selon un modèle réseau sous forme de graphe où les entités archivées sont reliées entre elles à l'aide de pointeurs logiques.
On connaît également des bases de données orientées objets qui sont capables de stocker une multitude d'informations dans des objets tels que par exemple une fiche individuelle, une machine, une ressource... à laquelle on associe des valeurs et des attributs. Plusieurs recherches ont proposé un modèle sémantique pour les bases de données dans lequel les données sont organisées selon un schéma conceptuel (concept map en anglais) consistant en une représentation d'un ensemble de concepts reliés sémantiquement entre eux. Toutefois, aucun modèle sémantique n'est encore disponible. Quel que soit le type de base de données, un problème fondamental provient du fait qu'il est particulièrement difficile d'identifier rapidement un objet dans une archive vidéo d'une base de données contenant un grand nombre d'images, particulièrement lorsque l'on dispose de très peu d'informations sur l'objet recherché.
Une telle situation se présente par exemple lors de la recherche, à partir d'un simple signalement, d'un individu non préalablement identifié, dans une archive de vidéosurveillance contenant des milliers d'heures d'enregistrement. 3 Dans ce contexte, il est actuellement nécessaire de visionner manuellement toutes les archives vidéo enregistrées. Outre le fait que ce mode opératoire soit excessivement fastidieux et le deviendra d'autant plus avec la multiplication des caméras dans les réseaux de caméras de télésurveillance et la densification de ces réseaux, il est inadapté aux situations d'urgence en cas de recherche d'un individu en fuite. De plus, il implique des temps d'analyse prohibitifs incompatibles avec la nécessité de faire rapidement progresser les enquêtes. Un but de l'invention est d'optimiser la navigation dans une telle base de données en automatisant le dépouillement afin d'accélérer la procédure de recherche dans une archive vidéo. Un autre but de l'invention est de permettre à un opérateur humain d'avoir accès à des résumés visuels structurés des objets présents dans une base de données vidéo hétérogène. Un autre but de l'invention est de fournir à l'opérateur humain des outils optimisés de navigation dans la base de données grâce à une stratégie de recherche interactive.
EXPOSÉ DE L'INVENTION Ces buts sont atteints au moyen d'un procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, comportant une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase 4 de caractérisation consistant à définir pour ledit objet au moins une caractéristique semantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable(s) par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras. Selon une autre caractéristique de l'invention, l'étape de mesure de similitude comporte les étapes suivantes : - estimer la compatibilité de la caractérisation sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, estimer la compatibilité spatio-temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire et n'ayant aucune caractéristique incompatible à celle de l'objet à identifier, Préférentiellement, le procédé selon l'invention comporte en outre une étape consistant à affecter à chaque mesure de similitude un coefficient de vraisemblance. 5 En outre, le procédé selon l'invention comporte une étape consistant à fusionner les résultats des étapes de la mesure de similitude de manière à définir une mesure unique unifiée de similitude, permettant de définir une distance dans l'espace des objets à identifier. De plus, le procédé selon l'invention comporte une structuration dynamique de cet espace des objets d'intérêt, au moyen de la distance définie précédemment, de manière à pouvoir naviguer de façon interactive dans l'archive vidéo selon un arbre hiérarchique. L'invention s'applique dans la recherche d'une personne humaine dans laquelle ledit objet à identifier est une personne humaine pour laquelle on dispose uniquement d'un signalement sommaire. Dans cette application, la caractéristique sémantique de ladite personne humaine consiste en une caractéristique physique visible et/ou en un accessoire visible. L'invention est particulièrement avantageuse pour rechercher un suspect dans une archive vidéo comportant plusieurs séquences vidéo prises par plusieurs caméras réparties dans un espace couvert par un réseau de caméras de télésurveillance. Le procédé selon l'invention est mis en oeuvre par un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité 6 d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte un module de caractérisation de l'objet à identifier et un module de recherche dudit objet dans ladite archive, ledit module de caractérisation comportant des moyens pour définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ledit module de recherche comportant des moyens pour filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, des moyens pour extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, des moyens pour définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et des moyens pour mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio- temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras. Préférentiellement, lesdits moyens de mesure de similitude comportent : un premier module de calcul configuré pour estimer la compatibilité de la caractéristique sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, - un deuxième module de calcul configuré pour estimer la compatibilité spatio-temporelle du 30 7 parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire à celle de l'objet à identifier.
Le procédé selon l'invention est implémenté dans ledit dispositif par un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour identifier un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, ledit programme d'ordinateur comportant des instructions pour réaliser une phase de caractérisation de l'objet à identifier et des instructions pour réaliser une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes sur le parcours spatio- 8 temporel de l'objet à identifier dans l'espace couvert par le réseau de caméras. BRÈVE DESCRIPTION DES DESSINS D'autres caractéristiques et avantages de l'invention ressortiront de la description qui suit, prise à titre d'exemple non limitatif, en référence à la figure annexée. EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS L'invention sera décrite dans la cadre d'une application particulière dans laquelle on considère un réseau étendu de caméras de vidéosurveillance existant, comme par exemple celui d'un réseau de transport urbain ou celui d'un aéroport. On se place dans le cadre typique d'une enquête suite à un incident (agression, vol, acte terroriste). On considère également que plusieurs témoins fournissent une description d'un suspect. L'objectif est alors de retrouver rapidement des images de l'incident, si elles existent, et de retrouver le parcours complet du suspect dans la zone couverte par le réseau de caméras pour en déterminer le parcours spatio-temporel et pour l'identifier. L'approche classique consiste à visionner les images prises par les caméras proches du lieu indiqué de l'incident et à des instants proches de celui indiqué par les témoins afin de repérer l'incident dans l'archive vidéo filmé. L'approche proposée par la présente invention consiste à exploiter les signalements donnés 30 par les témoins pour systématiser la recherche du 9 suspect et pour filtrer les données avant d'optimiser la recherche des images dans l'archive de vidéosurveillance. A cet effet, la description du suspect fournie par les témoins est exploitée pour définir des informations sémantiques sur le suspect. Ainsi, ce dernier peut par exemple être grand, très mince, porter un long manteau noir et des lunettes de soleil, avec une barbe et les cheveux longs. Parmi ces caractéristiques, certaines sont exploitables par le procédé selon l'invention et programmées directement dans le système. Ce dernier effectue automatiquement un prétraitement de l'ensemble des données vidéo présentes dans l'archive. Ce prétraitement comporte les étapes suivantes: analyser tous les objets en mouvement et les pister en prenant notamment en compte les occlusions et les arrêts ; détecter les personnes dans les images de l'archive, caractériser chacune des personnes identifiées grâce à des algorithmes spécialisés qui, à partir d'une entrée spécifiée, donnent en sortie une liste d'attributs sémantiques et pour chaque attribut une mesure de confiance, de probabilité et/ou de plausibilité. Dans un mode préféré de réalisation de l'invention, la détection des mouvements est réalisée par modélisation de la scène par des mélanges de gaussiennes (le fond étant fixe), et le pistage est réalisé au moyen d'un filtre de Kalman, puis complété 10 par une analyse locale en utilisant des descripteurs locaux de type SIFT ou SURF par exemple, voire des modélisations plus simples et plus ponctuelles, afin de résoudre les ambiguïtés dues aux occlusions.
Dans ce mode de réalisation, la détection des personnes est obtenue par exemple en détectant les visages par utilisation des techniques à base de cascades de classifieurs telle que Adaboost et de filtres de Haar, puis éventuellement en remontant à l'enveloppe corporelle complète par des analyses de formes avec, éventuellement, des postulats sur des ratios physionomiques ou détecteurs d'individus à base de techniques d'apprentissage. Préférentiellement, les algorithmes spécialisés utilisés pour caractériser chacune des personnes sont par exemple des classifieurs capables d'indiquer si un individu a des cheveux longs ou courts, porte ou non une barbe, présente un visage très arrondi ou plutôt allongé, affiche de l'embonpoint ou dispose d'une silhouette svelte, etc. Avantageusement, une mesure de fiabilité de la réponse est fournie pour chacune des informations extraites. Ces caractérisations (ou descripteurs extraits des images) sont directement interprétables par un opérateur humain et peuvent être mises directement en relation avec les informations sémantiques recueillies lors d'un témoignage. En outre, elles sont calculées même sur des images à basse résolution. Iil n'est en effet pas nécessaire d'avoir des centaines de pixels de large sur un 11 visage pour déterminer si une personne porte des lunettes. Dans le mode préféré de réalisation, les classifieurs sont obtenus selon la méthode décrite ci-après: on extrait des descripteurs images localement sur les vignettes extraites (par exemple, pour déterminer si une personne porte une barbe, on s'intéresse à la moitié inférieure du masque de détection du visage) ; ces descripteurs peuvent être par exemple des histogrammes de couleurs, de gradients, des propriétés de répartition spatiale caractérisant les textures, des réponses à des filtres (de Gabor par exemple), etc; on construit ensuite des classifieurs par apprentissage statistique (machine learning) afin d'indiquer quels visages disposent de la caractéristique barbe ; une approche alternative consiste à apprendre des mesures de distance spécifiques à ces caractéristiques, puis à exploiter ces distances spécifiques pour déterminer la proximité ou la différence entre deux visages sur certains aspects sémantiques. La mesure de fiabilité peut être fournie directement par le classifieur.
Elle peut également être modélisée a posteriori en traduisant par exemple les sorties précédentes en probabilités. De plus, il est également possible de faire intervenir des critères sur la qualité des images de l'archive pour déterminer si l'estimation du trait sémantique sur une vignette est fiable ou pas. Ainsi, une image très bruitée ou très altérée 12 par des artefacts de compression est beaucoup plus délicate à analyser, et dans ce cas les estimations sont naturellement moins sûres et moins fiables. Lorsque l'on dispose d'informations spatio- temporelles permettant de relier des caméras, celles- ci sont exploitées pour établir des premiers liens entre les observations faites dans diverses caméras. Ainsi, si l'on connaît les positionnements relatifs des différentes caméras et des emprises des champs de vision, il est possible de mettre en place des critères de compatibilités spatiales et temporelles entre les mouvements dans les différentes caméras ; cela permet notamment de dire qu'une entité dont on a mesuré la vitesse globalement constante ne peut pas apparaître avant une certaine date dans une vidéo et apparaîtra vraisemblablement autour d'une date prévisible, de part la connaissance de la vitesse de déplacement. Les contraintes de compatibilité spatio-temporelles peuvent être binaires (une personne ne peut pas être en deux endroits en même temps) ou floues (valeur flottante de confiance, i.e. plus ou moins de probabilité). Grâce à ces contraintes, des observations entre plusieurs caméras peuvent être mises en correspondance, des relations plus ou moins complexes et fiables sont donc mises en place entre toutes les entités de la base. A partir de ce point, l'archive de vidéosurveillance est représentée par une base de données sémantiques associées à chaque individu vu dans au moins l'une des vidéos. 13 La structuration de la base de données sémantiques comporte les étapes suivantes : On exploite le signalement transmis par les témoins. Ce signalement comporte des caractérisations sémantiques, avec éventuellement des mesures de confiance associées en fonction des souvenirs des témoins et de la cohérence des déclarations ; on filtre, la base de données, à partir desdites caractéristiques sémantiques en ne conservant que les individus présentant ces traits caractéristiques en supprimant tous les individus ne présentant pas ces traits; - on regroupe de manière hiérarchique tous les individus ayant des apparences semblables, en d'autres termes, on regroupe les individus sur des critères de similarité en établissant pour chaque groupe et pour chaque sous-groupe une caractérisation commune des individus du groupe. Etant donné que les mesures de similarité entre individus se basent sur des critères sémantiques, le regroupement hiérarchique peut également être qualifié de sémantique. Ainsi deux images ne sont pas groupées uniquement du fait qu'elles se ressemblent (deux individus portant exactement les mêmes vêtements) mais aussi parce qu'elles présentent une ou plusieurs informations descriptives communes (deux individus portant une barbe et des lunettes de soleil, par exemple). Avantageusement, la structuration de la base de données peut être dynamique. A cet effet, il suffit d'ajouter, supprimer ou d'adapter des critères sémantiques pour que la structuration hiérarchique 14 puisse être mise à jour pour refléter les attentes de l'opérateur. Ainsi, il est possible de nuancer la fiabilité d'une information de corpulence ou ajouter une nouvelle information sur la forme du visage et le port d'une casquette. Il est par ailleurs envisageable de proposer automatiquement de nouvelles structuration à l'utilisateur. Une fois la base de données structurée, l'utilisateur peut naviguer efficacement dans la base de données en fonction des individus et de leurs caractéristiques et non plus en fonction des caméras et du défilement du temps. Lorsqu'un individu est désigné, la séquence vidéo correspondante peut être visualisée ; cette désignation permet de spécifier plus précisément l'apparence visuelle, qui permet de compléter les mesures de similarité. Par ailleurs, elle fournit une information spatio-temporelle sur la localisation de l'individu. Ainsi, la base de données déjà filtrée est à nouveau filtrée pour supprimer tous les individus dont les positionnements et les dates d'acquisition ne correspondent pas avec les contraintes spatio-temporelles du déplacement normal de l'individu désigné ; Les individus restants sont ordonnés selon une combinaison de facteurs sémantiques, de caractéristiques d'apparence et de la probabilité qu'il s'agisse bien de l'individu désigné, grâce aux contraintes spatio-temporelles sur le déplacement (une distance pouvant être estimée, une vitesse probable pouvant être calculée et une vitesse maximale définie). 15 L'utilisateur peut alors parcourir cette liste ordonnée et effectuer très efficacement et très rapidement le pistage (tracking) et le back-tracking (qui consiste à revenir dans le temps) de l'individu désigné, en parcourant l'archive via les contraintes spatio-temporelles, les propriétés sémantiques et les critères d'apparence, sans avoir à se préoccuper de la sélection des caméras ou de l'horodatage des données. La figure annexée décrit les étapes principales du procédé selon l'invention dans le cadre de l'application décrites ci-dessus. Au cours de la phase T1 des images d'une scène sont enregistrées (étape 2) par un réseau de caméra 4 comportant plusieurs caméras réparties géographiquement sur une zone surveillée. A l'étape 6, on sélectionne une plage temporelle au cours de laquelle les images enregistrées seront analysées. Au cours de la phase T2, on détecte les individus dans les images enregistrées (étape 8) et on génère (étape 10) des imagettes des individus détectés. Au cours de la phase T3, on extrait (étape 12) des caractéristiques sémantiques desdites imagettes. Celles-ci sont ensuite codées et indexées.
A l'étape 14, les imagettes présentant une ou plusieurs informations descriptives communes sont groupées. Un fichier comportant un résumé visuel des images est généré à l'étape 16, puis affiché à l'étape 18.
16 La phase T4 décrit l'exploitation par un opérateur 20 de la base de données constituée au cours des phases T1 à T3. A l'étape 22, l'opérateur désigne la plage temporelle de l'événement filmé. A l'étape 24, l'opérateur fournit, via une interface utilisateur, des attributs de l'individu recherché. Le système affiche (étape 26) les images filtrées à partir de la base de données structurée générées au cours des étapes précédentes. Le mode de réalisation particulière décrite ci-dessus est appliqué aux individus. Le concept est généralisable à d'autres entités tels que des véhicules par exemple.

Claims (11)

  1. REVENDICATIONS1. Procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique semantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
  2. 2. Procédé selon la revendication 1, dans lequel ladite mesure de similitude comporte les étapes suivantes . - estimer la compatibilité de la caractérisation sémantique de l'objet à identifier avec 18 la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, estimer la compatibilité spatio- temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire et n'ayant aucune caractéristique incompatible à celle de l'objet à identifier.
  3. 3. Procédé selon la revendication 2, comportant en outre une étape consistant à affecter à chaque mesure de similitude un coefficient de vraisemblance.
  4. 4. Procédé selon la revendication 3, comportant en outre une étape consistant à fusionner les résultats des étapes de la mesure de similitude de manière à définir une mesure unique unifiée de similitude, permettant de définir une distance dans l'espace des objets à identifier.
  5. 5. Procédé selon la revendication 3, comportant en outre une étape consistant à réaliser une structuration dynamique de l'espace des objets à identifier au moyen de ladite distance de manière à pouvoir naviguer de façon interactive dans l'archive vidéo selon un arbre hiérarchique.
  6. 6. Procédé selon la revendication 5, dans 30 lequel ledit objet à identifier est une personne humaine. 19
  7. 7. Procédé selon la revendication 6, dans lequel la caractéristique sémantique de ladite personne humaine consiste en une caractéristique physique visible.
  8. 8. Procédé selon la revendication 6, dans lequel la caractéristique sémantique de ladite personne humaine consiste en un accessoire vestimentaire visible.
  9. 9. Dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte un module de caractérisation de l'objet à identifier et un module de recherche dudit objet dans ladite archive, ledit module de caractérisation comportant des moyens pour définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo même sur des images à basse résolution, et directement interprétable par un opérateur, ledit module de recherche comportant des moyens pour filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, des moyens pour extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, des moyens pour définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et des moyens pour mesurer la similitude de l'objet à identifier avec tout autre 20 objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
  10. 10. Dispositif selon la revendication 9, dans lequel lesdits moyens de mesure de similitude comportent . un premier module de calcul configuré 10 pour estimer la compatibilité de la caractéristique sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, un deuxième module de calcul configuré 15 pour estimer la compatibilité spatio-temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire à celle de l'objet à identifier. 20
  11. 11. Programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour identifier un objet dans une archive vidéo comprenant une pluralité 25 d'images acquises sur un réseau de caméras, ledit programme d'ordinateur étant caractérisé en ce qu'il comporte des instructions pour réaliser une phase de caractérisation de l'objet à identifier et des instructions pour réaliser une phase de recherche dudit 30 objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet5 21 au moins une caractéristique sémantique extractible à basse résolution de ladite archive vidéo et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes sur le parcours spatio- temporel de l'objet à identifier dans l'espace couvert par le réseau de caméras.
FR0855737A 2008-08-27 2008-08-27 Procede d'identification d'un objet dans une archive video. Active FR2935498B1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0855737A FR2935498B1 (fr) 2008-08-27 2008-08-27 Procede d'identification d'un objet dans une archive video.
US13/059,962 US8594373B2 (en) 2008-08-27 2009-08-26 Method for identifying an object in a video archive
CN200980133643.0A CN102187336B (zh) 2008-08-27 2009-08-26 用于识别视频档案中的对象的方法
EP09809332A EP2316082A1 (fr) 2008-08-27 2009-08-26 Procede d'identification d'un objet dans une archive video
PCT/EP2009/060960 WO2010023213A1 (fr) 2008-08-27 2009-08-26 Procede d'identification d'un objet dans une archive video
IL211129A IL211129A0 (en) 2008-08-27 2011-02-08 Method for identifying an object in a video archive

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0855737A FR2935498B1 (fr) 2008-08-27 2008-08-27 Procede d'identification d'un objet dans une archive video.

Publications (2)

Publication Number Publication Date
FR2935498A1 true FR2935498A1 (fr) 2010-03-05
FR2935498B1 FR2935498B1 (fr) 2010-10-15

Family

ID=40467086

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0855737A Active FR2935498B1 (fr) 2008-08-27 2008-08-27 Procede d'identification d'un objet dans une archive video.

Country Status (6)

Country Link
US (1) US8594373B2 (fr)
EP (1) EP2316082A1 (fr)
CN (1) CN102187336B (fr)
FR (1) FR2935498B1 (fr)
IL (1) IL211129A0 (fr)
WO (1) WO2010023213A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103052987A (zh) * 2010-07-28 2013-04-17 国际商业机器公司 促进视频监控中的人物搜索

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239359B2 (en) * 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US8532390B2 (en) * 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
GB2492450B (en) * 2011-06-27 2015-03-04 Ibm A method for identifying pairs of derivative and original images
US10242099B1 (en) * 2012-04-16 2019-03-26 Oath Inc. Cascaded multi-tier visual search system
GB2519348B (en) * 2013-10-18 2021-04-14 Vision Semantics Ltd Visual data mining
CN104866538A (zh) * 2015-04-30 2015-08-26 北京海尔广科数字技术有限公司 一种动态更新语义告警库的方法、网络及***
US9912838B2 (en) * 2015-08-17 2018-03-06 Itx-M2M Co., Ltd. Video surveillance system for preventing exposure of uninteresting object
US11294949B2 (en) 2018-09-04 2022-04-05 Toyota Connected North America, Inc. Systems and methods for querying a distributed inventory of visual data
CN110647804A (zh) * 2019-08-09 2020-01-03 中国传媒大学 一种暴力视频识别方法、计算机***和存储介质
US20220147743A1 (en) * 2020-11-09 2022-05-12 Nvidia Corporation Scalable semantic image retrieval with deep template matching
CN112449249A (zh) * 2020-11-23 2021-03-05 深圳市慧鲤科技有限公司 视频流处理方法及装置、电子设备及存储介质
FR3140725A1 (fr) 2022-10-10 2024-04-12 Two - I système de surveillance

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1260934A2 (fr) * 2001-05-22 2002-11-27 Matsushita Electric Industrial Co., Ltd. Dispositif et procédé d'enregistrement de données de surveillance
WO2007140609A1 (fr) * 2006-06-06 2007-12-13 Moreideas Inc. Procédé et système pour l'analyse, l'amélioration et l'affichage d'images et de films vidéo, à des fins de communication

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10509298A (ja) * 1995-09-15 1998-09-08 インターヴァル リサーチ コーポレイション 複数のビデオ画像の圧縮方法
US7127087B2 (en) * 2000-03-27 2006-10-24 Microsoft Corporation Pose-invariant face recognition system and process
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
EP1472869A4 (fr) * 2002-02-06 2008-07-30 Nice Systems Ltd Systeme et procede de detection, surveillance et gestion d'alarme fondes sur l'analyse de contenus video
CN100446558C (zh) * 2002-07-02 2008-12-24 松下电器产业株式会社 视频产生处理装置和视频产生处理方法
JP4013684B2 (ja) * 2002-07-23 2007-11-28 オムロン株式会社 個人認証システムにおける不正登録防止装置
US20040095377A1 (en) * 2002-11-18 2004-05-20 Iris Technologies, Inc. Video information analyzer
US7606425B2 (en) * 2004-09-09 2009-10-20 Honeywell International Inc. Unsupervised learning of events in a video sequence
US20060274949A1 (en) * 2005-06-02 2006-12-07 Eastman Kodak Company Using photographer identity to classify images
US7519588B2 (en) * 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
EP2062197A4 (fr) * 2006-09-15 2010-10-06 Retica Systems Inc Système et procédé de biométrie multimodale à distance
US20080140523A1 (en) * 2006-12-06 2008-06-12 Sherpa Techologies, Llc Association of media interaction with complementary data
CN101201822B (zh) * 2006-12-11 2010-06-23 南京理工大学 基于内容的视频镜头检索方法
CN101689394B (zh) * 2007-02-01 2014-03-26 耶路撒冷希伯来大学伊森姆研究发展有限公司 用于视频索引和视频概要的方法和***
US8229227B2 (en) * 2007-06-18 2012-07-24 Zeitera, Llc Methods and apparatus for providing a scalable identification of digital video sequences
JP4982410B2 (ja) * 2008-03-10 2012-07-25 株式会社東芝 空間移動量算出装置及びその方法
US8804005B2 (en) * 2008-04-29 2014-08-12 Microsoft Corporation Video concept detection using multi-layer multi-instance learning
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP5505723B2 (ja) * 2010-03-31 2014-05-28 アイシン・エィ・ダブリュ株式会社 画像処理システム及び位置測位システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1260934A2 (fr) * 2001-05-22 2002-11-27 Matsushita Electric Industrial Co., Ltd. Dispositif et procédé d'enregistrement de données de surveillance
WO2007140609A1 (fr) * 2006-06-06 2007-12-13 Moreideas Inc. Procédé et système pour l'analyse, l'amélioration et l'affichage d'images et de films vidéo, à des fins de communication

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103052987A (zh) * 2010-07-28 2013-04-17 国际商业机器公司 促进视频监控中的人物搜索

Also Published As

Publication number Publication date
WO2010023213A1 (fr) 2010-03-04
CN102187336B (zh) 2014-06-11
FR2935498B1 (fr) 2010-10-15
EP2316082A1 (fr) 2011-05-04
US8594373B2 (en) 2013-11-26
IL211129A0 (en) 2011-04-28
US20120039506A1 (en) 2012-02-16
CN102187336A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
FR2935498A1 (fr) Procede d'identification d'un objet dans une archive video.
US20120148149A1 (en) Video key frame extraction using sparse representation
EP2095327A1 (fr) Procede de designation d'un objet dans une image
EP3496000A1 (fr) Extraction automatique d'attributs d'un objet au sein d'un ensemble d'images numeriques
WO2020065177A1 (fr) Procede, programme d'ordinateur et systeme de detection et localisation d'objet dans une scene tridimensionnelle
FR3011960A1 (fr) Procede d'identification a partir d'un modele spatial et spectral d'objet
EP0863488A1 (fr) Procédé de détection de contours de relief dans une paire d'images stéréoscopiques
EP1543444A2 (fr) Procede et dispositif de mesure de similarite entre images
Gandhimathi Alias Usha et al. A novel method for segmentation and change detection of satellite images using proximal splitting algorithm and multiclass SVM
EP0961227A1 (fr) Procédé de détection de la profondeur relative entre deux objects dans une scène à partir d'un couple d'images issues de prises de vues différentes
WO2006032799A1 (fr) Système d'indexation de vidéo de surveillance
FR2936627A1 (fr) Procede d'optimisation de la recherche d'une scene a partir d'un flux d'images archivees dans une base de donnees video.
EP2491517A1 (fr) Méthode et système pour évaluer la classe d'une donnée de test dans un espace de données de grande dimension
Möller et al. Tracking sponge size and behaviour with fixed underwater observatories
EP0550101A1 (fr) Procédé de recalage d'images
FR3094815A1 (fr) Procédé, programme d’ordinateur et système pour l’identification d’une instance d’objet dans une scène tridimensionnelle
WO2024079119A1 (fr) Système de surveillance
FR2911984A1 (fr) Procede pour identifier des points symboliques sur une image d'un visage d'une personne
Chu et al. Travel video scene detection by search
FR2872326A1 (fr) Procede de detection d'evenements par videosurveillance
Li Learning and mining from personal digital archives
Tapu et al. Multiresolution median filtering based video temporal segmentation
Kareem et al. Large scale objects thermography and thermal imaging survey: Datasets and applications
FR2801992A1 (fr) Procede et dispositif de recherche d'images basee sur le contenu prenant en compte la definition de regions d'interet
FR3142026A1 (fr) Détection d’objets dans une image

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 11

PLFP Fee payment

Year of fee payment: 12

PLFP Fee payment

Year of fee payment: 13

PLFP Fee payment

Year of fee payment: 14

PLFP Fee payment

Year of fee payment: 15

PLFP Fee payment

Year of fee payment: 15

PLFP Fee payment

Year of fee payment: 16