FR2789196A1 - Procede de generation de descriptions de documents multimedia - Google Patents

Procede de generation de descriptions de documents multimedia Download PDF

Info

Publication number
FR2789196A1
FR2789196A1 FR9900966A FR9900966A FR2789196A1 FR 2789196 A1 FR2789196 A1 FR 2789196A1 FR 9900966 A FR9900966 A FR 9900966A FR 9900966 A FR9900966 A FR 9900966A FR 2789196 A1 FR2789196 A1 FR 2789196A1
Authority
FR
France
Prior art keywords
descriptors
descriptor
function
user
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9900966A
Other languages
English (en)
Other versions
FR2789196B1 (fr
Inventor
Pascal Faudemay
Claude Seyrat
Cedric Thienot
Philippe Joly
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universite Pierre et Marie Curie Paris 6
Original Assignee
Universite Pierre et Marie Curie Paris 6
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite Pierre et Marie Curie Paris 6 filed Critical Universite Pierre et Marie Curie Paris 6
Priority to FR9900966A priority Critical patent/FR2789196B1/fr
Priority to PCT/FR2000/000184 priority patent/WO2000045293A1/fr
Publication of FR2789196A1 publication Critical patent/FR2789196A1/fr
Application granted granted Critical
Publication of FR2789196B1 publication Critical patent/FR2789196B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procédé de génération de descriptions de documents multimédia, comprenant une étape d'analyse et de segmentation d'un document en une pluralité d'objets associés à des vraisemblances, une étape de génération de descripteurs par application de fonctions aux objets précités, ces descripteurs comprenant des descripteurs abstraits contenant une référence à un objet décrit et des fonctions définissant des mécanismes de réflexe, et une étape d'activation de descripteurs abstraits, les fonctions de génération de descripteurs consistant notamment à :- appliquer à un objet multimédia une fonction de similarité avec une collection préétablie de prototypes,- créer des exceptions par acceptation de nouveaux descripteurs qui contredisent des descripteurs déjà obtenus,- modifier les fonctions de génération de descripteurs par un ensemble modélisé de connaissances spécifiques à un utilisateur à qui une description est destinée.

Description

L'invention concerne un procédé de génération de descriptions de
documents multimédia, tels notamment que des documents audiovisuels,
des séquences vidéo, etc...
Il est déjà connu (norme MPEG-4) de représenter un document audiovisuel comme un ensemble d'objets, de comportement de ces objets
et de relations entre ces objets, un objet pouvant être le document lui-
même ou une partie de ce document. De façon typique, les objets multimédia peuvent être des séquences vidéo ou de films, un plan d'un
film, une phrase musicale, etc...
Il a été proposé dans les spécifications initiales du projet de norme
MCDI (Multimedia Content Description Interface) appelé également MPEG-
7, de définir la structure d'un document multimédia au moyen d'un schéma
de description qui représente le document comme un graphe d'objets, d'un
langage de définition du schéma de description et de descripteurs, mais les
contenus et les propriétés des schémas de description et les langages de
définition de ces schémas restent encore à définir.
L'invention a notamment pour objet un procédé pour générer des
descriptions de documents multimédia conformément à un ou plusieurs
schémas de description, quel que soit le langage utilisé pour décrire ces
schémas dès lors qu'il possède l'expressivité et les propriétés voulues.
2 5 L'invention a également pour objet un procédé de ce type qui permette d'extraire une quantité maximale d'information sémantique utile d'un document multimédia à partir de contenus audiovisuels et d'ontologies, tout en minimisant le coût et la complexité du calcul nécessaire, celui-ci devant converger en un nombre fini (pouvant être limité
de façon arbitraire) d'étapes de calcul.
L'invention a encore pour objet un procédé du type précité, comprenant des étapes de définition d'un profil utilisateur permettant de
personnaliser les descriptions des documents multimédia en fonction d'un
ensemble de connaissances relatives à un utilisateur ou à un groupe d'utilisateurs, de façon à pouvoir offrir à cet utilisateur ou ce groupe d'utilisateurs une sélection personnalisée d'un certain nombre de documents multimédia et permettre la production d'un document conforme
aux souhaits de l'utilisateur ou du groupe d'utilisateurs.
A cet effet, I'invention propose un procédé de génération de
descriptions de documents multimédia, destiné à faciliter l'accès d'un
utilisateur à ces documents, la navigation parmi ces documents et/ou leur interprétation par exemple par un programme informatique, ce procédé comprenant une première étape d'analyse et de segmentation temporelle et/ou spatiale d'un document multimédia en une pluralité d'objets multimédia auxquels sont associées des vraisemblances, caractérisé en ce qu'il comprend également: - une deuxième étape de génération d'objets descripteurs par application de fonctions aux objets multimédia précités, ces objets descripteurs étant associés à des vraisemblances et comprenant des descripteurs informations, des descripteurs actions et des descripteurs abstraits, ces derniers contenant chacun une référence à un objet décrit et des fonctions définissant des mécanismes de réflexe, - les fonctions de génération de descripteurs dans la deuxième étape comprenant au moins une de celles consistant à: - appliquer à un objet multimédia une fonction de similarité avec une collection préétablie de prototypes d'objets multimédia ou de descripteurs, - créer des exceptions par acceptation de nouveaux descripteurs qui contredisent des descripteurs déjà obtenus quand la vraisemblance d'un nouveau descripteur est supérieure à celle du descripteur déjà obtenu et que la différence de leurs vraisemblances est supérieure ou égale à un seuil prédéterminé, modifier les fonctions de génération de descripteurs par un profil utilisateur comprenant un ensemble modélisé de connaissances
spécifiques à un utilisateur à qui une description est destinée.
Selon d'autres caractéristiques de l'invention, ce procédé consiste également à: - dans la première étape, ajouter aux objets multimédia des descripteurs de référence décrivant les relations entre les objets multimédia et les objets dont ils sont issus, - dans une troisième étape, activer des descripteurs abstraits par déclenchement d'un mécanisme de réflexe d'un descripteur abstrait en réponse à une modification de son état ou à une requête sur son état, cette activation permettant de générer d'autres descripteurs, - utiliser une ou plusieurs ontologies dans les mécanismes de réflexe des descripteurs abstraits,
- activer des descripteurs abstraits en vue de réaliser un pseudo-
héritage, consistant en un transfert d'un descripteur le long d'une relation contenu/contenant, - utiliser un code procédural, tel par exemple qu'un procédé algorithmique de segmentation ou d'extraction d'informations, pour la segmentation d'un document multimédia dans la première étape ou la génération de descripteurs dans la deuxième étape, le déclenchement d'un mécanisme de réflexe d'un descripteur abstrait provoquant le déclenchement de mécanismes de réflexe d'autres descripteurs abstraits, utiliser un mécanisme de marquage de ces descripteurs abstraits pour éviter des activations en boucle fermée de deux ou plusieurs de ces descripteurs abstraits, - créer dans la première étape une collection de prototypes par application à un ou plusieurs objets multimédia d'interactions (ou introduction de données par un agent extérieur) associées à un poids expert ou vraisemblance, - utiliser des règles de production dans les fonctions de génération de descripteurs de la deuxième étape, et éventuellement créer des règles par application de métarègles à d'autres règles, - utiliser des interactions, permettant la production d'annotations, dans les fonctions de génération de descripteurs de la deuxième étape, - maintenir la cohérence des descripteurs générés dans la deuxième étape, par suppression des descripteurs issus d'un descripteur contredit par une exception, - définir un profil utilisateur par un graphe de noeuds reliés par des arcs et par une mémoire de travail contenant un ensemble organisé de descripteurs avec une fonction d'effacement des descripteurs, l'établissement du profil utilisateur consistant à remplir la mémoire de travail par un ensemble de descripteurs, en temps réel ou en temps différé, à supprimer de la mémoire un ensemble de descripteurs précédents, à calculer des valeurs d'entrée des noeuds du profil, à calculer des valeurs d'activation des noeuds, à générer un nouvel ensemble de descripteurs et à le rentrer dans la mémoire de travail, chaque noeud contenant une fonction d'agrégat des entrées, une valeur d'entrée, une fonction d'activation ou de transition, une fonction de sortie, une fonction de génération de descripteurs et une valeur d'intérêt, des valeurs numériques
de pondération étant affectées aux arcs reliant les noeuds.
Le procédé comporte une fonction d'arbitrage déterminant, parmi des noeuds candidats à une activation, ceux qui sont activés à un moment donné, en fonction d'un descripteur du nombre de noeuds pouvant être
activés et des paramètres d'activation associés à chaque noeud.
Une valeur de pondération d'un arc peut par exemple correspondre à la probabilité que l'utilisateur qui a vu un descripteur contenu dans un premier noeud du graphe souhaite voir un autre descripteur contenu dans un autre noeud du graphe relié par l'arc en question au premier noeud, ou bien à la probabilité que l'utilisateur pense à l'autre descripteur quand il a
vu le descripteur contenu dans le premier noeud.
Avantageusement, ce procédé consiste également à ajouter des informations à caractère émotionnel au profil utilisateur, en associant à chaque noeud un vecteur de sensibilité aux affects pour chacune des fonctions du noeud et un vecteur d'incrément d'affect global, un vecteur de sensibilité aux affects à chaque arc et un contexte d'affects ou vecteur d'affects global à l'ensemble du graphe, les fonctions d'entrée, d'activation ou de transition et de génération de descripteurs contenues dans les noeuds étant modifiées pour tenir compte du vecteur d'affects global et des
vecteurs de sensibilité aux affects.
La fonction de génération de descripteurs génère les descripteurs à partir de la valeur d'activation du noeud, du vecteur de sensibilité aux
affects de cette fonction et du vecteur d'affects global.
Les valeurs de pondération des arcs et les vecteurs de sensibilité aux affects des noeuds peuvent être obtenus par capture automatique du profil d'utilisateur. On peut pour cela enregistrer les réactions de l'utilisateur à une séance de visualisation de documents au cours de laquelle il peut, à chaque fois, passer plus ou moins vite d'un document à l'autre ou visualiser l'intégralité d'un document. La fréquence de passage d'un document contenant un certain descripteur vers un document contenant un autre descripteur et la duree de visualisation de chaque document sont utilisées pour pondérer le graphe de la façon suivante: - les valeurs de pondération des arcs sont initialisées aux valeurs données par les probabilités de transition entre deux descripteurs obtenus à partir des fréquences de passage entre les descripteurs, les vecteurs de sensibilité aux affects des noeuds sont obtenus à partir des durées de visualisation des documents par l'utilisateur, par exemple par multiplication du contexte d'affects de l'utilisateur lors de la visualisation par le rapport
durée de visualisation/durée totale du document.
Le profil utilisateur peut être acquis par tout autre moyen approprié.
Des moyens sont en outre prévus pour rendre anonyme le profil utilisateur, notamment lorsqu'il doit être transmis à un système extérieur tel par exemple qu'un serveur dans un réseau de transmission de données et
pour l'envoi de la réponse du serveur vers l'utilisateur.
Le procédé selon l'invention peut être exécuté par itération, la
contrainte d'acceptation des exceptions garantissant sa convergence.
Ce procédé peut prendre en compte plusieurs profils utilisateurs, constitués de la façon précitée et dont une copie de l'état est enregistrée en mémoire de travail, une fonction de sélection et d'arbitrage déterminant
les profils utilisateurs actifs à un moment donné.
De façon générale, le procédé selon l'invention permet de générer
des descriptions personnalisées de documents multimédia de tout type
(films, séquences vidéo, images vidéo fournies par des caméras de vidéosurveillance, images vidéo fournies par un système optoélectronique de vision d'un robot, signaux sonores, etc...) et a pour avantage essentiel
de fournir une description optimisée d'un document multimédia, adaptée à
un utilisateur donné à un moment donné.
L'invention sera mieux comprise et d'autres caractéristiques, détails et avantages de celle-ci apparaîtront plus clairement à la lecture de la
description qui suit de divers modes de réalisation de l'invention, faite à titre
d'exemple en référence aux dessins annexés dans lesquels: - la figure 1 illustre le mode de détection d'un mouvement dans des images d'un film, la figure 2 illustre la notion de pseudo-héritage, - la figure 3 est un schéma de pondération des arcs d'un graphe de profil utilisateur, - la figure 4 représente schématiquement un noeud de ce profil, - la figure 5 représente un mode opératoire d'un profil utilisateur, - la figure 6 représente un noeud d'un profil utilisateur avec ajout d'un profil émotionnel, - la figure 7 représente un mode opératoire du profil utilisateur
comprenant un profil émotionnel.
Le procédé selon l'invention a pour but de générer une description
d'objets multimédia, en particulier de documents audiovisuels numérisés (films, documentaires, émissions télévisées, etc..), et aussi d'autres types d'objets, de différentes natures, disponibles sur différents formats, numérisés ou non, tels que les cassettes vidéos, les livres, les pages "web", et a priori tout objet d'un monde réel, imaginaire ou virtuel. Un objet multimédia est dans son acceptation la plus générale une entité d'un monde réel, imaginaire ou virtuel, qui peut être perçue. Les perceptions impliquées ne se limitent pas aux perceptions visuelles ou auditives et comprennent également les perceptions tactiles, olfactives et gustatives. Il existe des systèmes incorporant des capteurs d'odeurs et de toucher,
auxquels le procédé selon l'invention est applicable.
Ce procédé permet de générer des descripteurs à partir d'informations de base (un document numérisé, un noyau de descripteurs, etc..) ou à partir d'un flux d'informations, dans ce cas en "temps réel", les informations provenant par exemple d'une caméra de surveillance. Dans le cas "temps réel" on ne dispose pas d'une base d'objets multimédias que I'on doit analyser, mais d'un ensemble changeant d'objets multimédias et la
description doit elle aussi évoluer avec le temps.
La description générée en temps réel ou en temps différé pourra
servir à plusieurs classes d'applications. On distingue les applications "pull", les applications "push" et les applications spécialisées. Les applications "pull" répondent à une requête faite explicitement par un utilisateur. Les applications "push" anticipent les désirs des utilisateurs et leur font des propositions. Les applications spécialisées ne sont pas directement classables dans l'une des deux catégories précédentes et touchent des domaines aussi variés que l'imagerie médicale, la 2 0 surveillance de routes ou de lieux sensibles, les systèmes mobiles autoguidés (missiles, automobiles à conduite assistée, etc..), la domotique (capteurs intelligents), et la robotique: les robots "intelligents" analysent le
monde perçu et doivent donc disposer d'une description de ce monde à
partir d'objets multimédia (images et sons des capteurs).
Dans le cas des applications "push", le système doit avoir un modèle
de la personne qui l'utilise et ce modèle est une partie d'une description du
monde réel. La quasi totalité des applications informatiques doivent également incorporer ce type d'informations, y compris les applications "pull" et les applications spécialisées. Un exemple concret peut être le cas 3 0 d'un robot aspirateur qui, afin de déranger le moins possible son propriétaire, devra se servir d'un modèle le décrivant. Il pourra alors connaître le moment idéal pour son déclenchement et les chemins qu'emprunte classiquement son propriétaire dans l'appartement, savoir que lorsque son propriétaire est en colère, il vaut mieux ne pas se déclencher, mais que s'il va recevoir des amis chez lui, il doit se déclencher. Les
descriptions du monde nécessaires sont de nature très différentes: modèle
de l'utilisateur, modèle des pièces de l'appartement, etc..
Les informations décrivant les utilisateurs (et plus généralement les êtres humains) sont de nature très variées. Il est possible de modéliser les goûts, les humeurs, les habitudes, les associations d'idées classiques, etc... Avec une telle expressivité, ces modélisations contiennent des données très sensibles touchant à la vie privée. Il est donc nécessaire de les protéger et d'en empêcher la divulgation si elle n'est pas souhaitée, ce qui conditionne l'acceptation et l'utilisation des systèmes basés sur ces modélisations. Ce problème est d'autant plus important que ces systèmes
seront certainement connectés à des réseaux informatiques.
L'invention propose dans ce contexte, un procédé dont le but est de
générer une description personnalisée d'un objet multimédia, grâce à un
ensemble de connaissances sur l'objet et sur le monde dans lequel il évolue. On dispose pour cela de méthodes de segmentation d'objets 2 0 multimédias, de connaissances fournies sous forme de règles de production, de connaissances fournies par un ensemble d'exemples (les prototypes), et de connaissances sur les utilisateurs (les profils utilisateurs).
La description du procédé selon l'invention fait appel à un certain
nombre d'expressions spécialisées, dont les définitions sont données ci-
dessous. Un objet: soit un objet descripteur soit un objet multimédia. Une
collection d'objets est un objet.
Un objet multimédia: un objet multimédia est dans son acceptation la plus générale une entité d'un monde réel, imaginaire ou virtuel, qui peut être perçue (perceptions tactiles, olfactives, gustatives, visuelles et/ou auditives). Un objet descripteur (ou descripteur) est un descripteur informatif ou
un descripteur action.
Un descripteur action déclenche une action sur le monde extérieur dès qu'il est généré (enregistrement d'une séquence, sauvegarde sur bande, affichage ou masquage, etc.). Il a la particularité de ne pas pouvoir
être contredit par une exception. Il dispose d'un type et d'une valeur.
Les descripteurs informations représentent une description d'un
objet. Ils disposent d'un type, d'un objet cible (une référence à l'objet décrit)
et d'une valeur.
Un prototype: un prototype est un objet (multimédia ou descripteur)
qui sert d'exemple.
Une fonction: toute application d'un ensemble dans un autre
ensemble.
Une fonction d'agrégation est une fonction de plusieurs valeurs qui rend une valeur résultat. Par exemple, il peut s'agir d'une fonction de plusieurs vecteurs qui renvoie un vecteur. Les fonctions d'agrégations sont notamment utilisées pour calculer la valeur d'un noeud à partir des entrées de ce noeud, ou la valeur du vecteur d'affects global à partir des vecteurs d'incréments des noeuds activés. Une réalisation préférentielle est une
somme des valeurs sources.
Les collections: une collection est soit un objet soit une collection plus une pondération. Une collection d'objets multimédia est aussi un objet
multimédia.
Une interaction n'importe quelle introduction de données dans le programme effectuée par un agent extérieur au système (un utilisateur ou
un agent informatique).
Une fonction de similarité: c'est une fonction qui permet d'établir une similarité entre deux collections d'objets. La réalisation préférentielle retournera un degré de similarité c'est à dire un valeur réelle comprise
entre O et 1.
Un descripteur abstrait: c'est un descripteur qui contient une référence vers l'objet décrit et un ensemble de fonctions définissant des comportements de réflexe. Il réagit à une modification de son état ou à une
requête sur son état.
Une vraisemblance: une ou plusieurs valeurs représentant par exemple la crédibilité, la plausibilité, I'utilité ou le poids d'un objet, d'une interaction ou d'un utilisateur. Les vraisemblances peuvent être combinées grâce à des opérateurs logiques d'une logique graduelle. Une réalisation préférentielle est d'utiliser une valeur réelle (vraisemblance) ou deux valeurs réelles (plausibilité, importance) avec des calculs basés sur la
logique floue ou la logique possibiliste.
Les étapes du procédé peuvent être présentées sous une forme synthétique dont la sémantique des opérateurs est la suivante: e signifie "associé à", signifie "composé avec", signifie "génère" et * signifie "un
ou plusieurs" et - signifie "retrait".
La description et les descripteurs
Une description est définie comme un ensemble de descripteurs et
d'objets multimédias liés entre eux. Un descripteur est une minidescription
d'un des objets de la description globale. Un descripteur est généralement
composé d'un type, d'une valeur et d'une référence à l'objet décrit. Les descripteurs abstraits incorporent des comportements de réflexe. La génération d'un descripteur action entraîne des actions sur le monde extérieur comme, par exemple, I'enregistrement par un magnétoscope d'une scène d'un film. Les descripteurs transitoires sont ôtés de la
description périodiquement ou à date fixe. Enfin, une valeur de
vraisemblance mesure la crédibilité de chaque descripteur.
La boucle principale du procédé:
Elle consiste à compléter incrémentalement la description de l'objet
multimédia, par un ensemble de fonctions qui, en s'appliquant sur la
description, génèrent de nouveaux descripteurs ou de nouveaux objets
multimédias. Le procédé se décompose en trois étapes principales: Etape 1: La segmentation des objets multimédias Elle consiste à produire des objets multimédias à partir d'un objet multimédia. Les objets produits décrivent généralement l'objet dont ils sont issus. Sa forme synthétique est: (ObjetMM C Vraisemblanoe) s (Fondcion e Vraisemblance) (Objet _MM E Vraisemblance)* Une version étendue génère aussi un descripteur. Ce descripteur permet de décrire la relation qui lie les objets multimédias: composition
spatiale, temporelle, etc..
(ObjetMM C Vraisemblanoe) s (Fonction C Vraisemblabnce) ((Objet_MM e Vraisemblance) e (ObjetDescripteur Vraisemblanoe))* Une collection d'objets multimédias étant aussi un objet multimédia, les deux règles précédentes peuvent donc générer des collections d'objets multimédia. 2 0 Spécialisation par un code procédural: (ObjetMM e Vraisemblance) s (Code_procédural E Vraisemblance) (ObjetMM E Vraisemblance) s (ObjetDescripteur e Vraisemblanoe) Cette spécialisation de la première étape du procédé peut être illustrée par les méthodes de segmentation des films en plans, qui tentent, 2 5 de manière algorithmique, de repérer tous les plans d'un film. Elles présentent leurs résultats sous la forme d'un ensemble d'images appelées images caractéristiques et elles associent les plans d'un film à un film par une relation de composition. Ces méthodes produisent bien un ensemble d'objets multimédias et un ensemble de descripteurs par l'application d'un
code procédural à un autre objet multimédia.
Exemple de segmentation en plans par une méthode algorithmique: Chaque image d'un film est caractérisée par son intensité moyenne et l'intensité de chaque image est comparée à celles des n images précédentes. Dès que l'on repère une irrégularité trop grande on suppose qu'il y eu changement de plan. Cette méthode simpliste permet la détection de plans dans un flux vidéo. On caractérise les plans détectés par une des images qu'ils contiennent et on segmente le film en un ensemble d'images
caractéristiques.
Etape 2: La génération de nouveaux descripteurs Cette étape a pour but de générer des descripteurs à partir d'autres descripteurs. Sa forme synthétique générale est: (Objet E Vraisemblance)* s (Fondcion e Vraisemblance) = (Objet descripteur e Vraisemblance) Une version spécifique de cette forme synthétique sera employée assez fréquemment: (Objet E Vraisemblance)* e (Foncion e Vraisemblance) = (Descripteur abstrait e Vraisemblance) Cette forme spécifique propose de créer un descripteur abstrait, version spécifique d'un objet descripteur définie par la conjonction d'un descripteur, d'une référence a un objet et d'un ensemble de comportements de réflexes. Ces réflexes peuvent se déclencher lorsque
l'on modifie son état ou on fait une requête sur son état.
Spécialisation par un code procédural: La fonction qui génère un objet descripteur à partir d'objets peut être un code procédural: (Objet e Vraisemblance) s (Code_procédural e Vraisemblance) (ObjetDescripteur e Vraisemblance) Cette spécialisation de la deuxième étape du procédé peut être illustrée par des méthodes d'extraction d'information de mouvements à partir des films. Ces méthodes extraient, de manière algorithmique, des
informations comme "travelling", "zoom avant", "zoom arrière", etc..
Comme représenté en figure 1, chaque image d'un film peut être découpée en zones n x n de points élémentaires appelés "pixels". Chacune des zones de l'image i est recherchée dans l'image i+1 aux alentours de la zone initiale. On obtient ainsi un vecteur de déplacement de chaque zone de pixels entre deux images, duquel on peut détecter un mouvement de
caméra particulièrement classique.
Dans l'exemple de la figure 1, chaque zone de l'image i, retrouvée dans l'image i+1, a été numérotée. On en déduit une carte du mouvement
et on isole le mouvement de caméra le plus probable, ici un "travelling".
Spécialisation par des règles de production La fonction qui génère un objet descripteur à partir d'objets peut être
une règle de production.
(Descripteur e Vraisemblanoe)* e (regble Vraisemblance) (Descripteur e Vraisemblance) Les connaissances de sens commun peuvent être modélisées par
des règles de production.
Exemple d'inférence de connaissances par des règles Par exemple, la présence simultanée des descripteurs "sport", "mer", "ski" permettent d'inférer le descripteur "ski nautique" avec une bonne vraisemblance. L'intégration de connaissances de sens commun peut être faite grâce à des règles de production qui produisent des descripteurs à partir d'un ou plusieurs descripteurs déjà présents dans la
description.
Soient les descripteurs (mer 0,99) (sport 0,95) Et la règle:
si mer et sport inférer(min-vraisemblance) ski-nautique.
La description se complète avec le descripteur:
(ski-nautique 0,95) Spécialisation par des annotations La fonction qui génère un objet descripteur à partir d'objets peut être une fonction extérieure qui interagit avec le système. Une interaction est n'importe quelle introduction de données dans le programme effectuée par
un agent extérieur au système (un utilisateur ou un agent informatique).
(Descripteur e Vraisemblanoe)* e (Interadcion e poidsexpert) = (Descripteur E Vraisemblanoe) L'ajout de descripteurs via une interface graphique en est un
exemple. Ces descripteurs sont appelés des annotations.
1 5 Références: La segmentation spatiale des images en objets est un problème traité notamment dans la norme MPEG-4. Leur segmentation est généralement fondée sur des informations de mouvement (cf. "Overview of
the MPEG-4 Standard", Rob Koenen, ISO/IEC JTC1/SC29NV/WG11 N2459).
L'integration de connaissances de sens commun est traitée dans les articles relatifs au domaine des ontologies dont une approche est présentée dans " Formal Ontology in Information Systems ", N. Guarino, Proceedings of the first international conference on Formal Ontology and Information Systems (FOIS'98), IOS Press. Les ontologies sont basées sur une ou plusieurs taxonomies de concepts, des propriétés objets (héritage, composition) et des axiomes. Le procédé selon l'invention prévoit
l'application d'ontologies aux descriptions multimédia en y intégrant des
mécanismes de descripteurs abstraits, d'annotations et d'exceptions.
Etape 3: lI'activation des descripteurs abstraits Un descripteur abstrait réagit à une modification de son état ou à une requête sur son état. Cette réaction est comparable à un mécanisme de réflexe. Le descripteur abstrait effectue alors une action qui peut éventuellement induire elle-même des mécanismes de réflexes chez d'autres descripteurs abstraits (création d'objets descripteurs, changement de valeurs d'un descripteur,...). Cette action peut s'effectuer soit directement par l'appel d'un autredescripteur abstrait, soit indirectement par la création d'un ou plusieurs descripteurs transitoires déclenchant
la d'autres descripteurs abstraits.
Un mécanisme de marquage évite un bouclage de l'activation des réflexes, par exemple: si D_A1 stimule DA2 alors si D_A2 stimule D_A1
pour la même action, le mécanisme de réflexe est arrêté.
Forme synthétique (Descripteur abstrait Vraisemblance) s (fonction e Vraisemblanoe) e (Objetdescripteur E Vraisemblance) = (Objetdescripteur e Vraisemblanoe) Les descripteurs abstraits permettent de disposer de nombreuses propriétés très utiles grâce à ce mécanisme de réflexe, telles par exemple que: - Vérification de cohérence: si la valeur d'un descripteur est modifiée, une vérification peut être effectuée: par exemple, vérifier que la date de
début d'un plan est bien antérieure à la date de fin.
- Propriétés particulières des descripteurs: par exemple, la propriété de transitivité d'un descripteur peut être mise en oeuvre par un descripteur abstrait. La propriété de contenance est: "si contient(x, y) et contient(y, z) alors contient(x, z)". Dans l'exemple d'un plan qui contient un objet X et qui est contenu dans une scène d'un film, à la question "contiens-tu l'objet X ?", la scène pourra répondre positivement en propageant la question aux plans qu'elle contient. Cette propagation pourra se faire soit lors de la création initiale des descripteurs (par fermeture transitive sur les descripteurs abstraits), soit pour réduire le temps de calcul initial, lors d'une requête spécifique d'un utilisateur ou du système. - Intégration de connaissances ontologiques: par exemple, un descripteur "lieu" dont la valeur est "Paris", s'il est relié à une ontologie,
peut répondre "vrai" à la requête "es-tu en France ?".
Exceptions et maintien de la cohérence Les descripteurs générés lors des étapes 2 et 3 peuvent remettre en
cause des descripteurs déjà présents dans la description. Ces "nouveaux"
descripteurs sont appelés des exceptions. Pour être acceptée une exception doit avoir une vraisemblance supérieure à celle du descripteur qu'elle contredit et la différence des deux vraisemblances doit être supérieure à une certaine valeur. Cette contrainte vérifie qu'un descripteur ne va pas être contredit indéfiniment et permet d'assurer la convergence
du système.
De plus, il existe un mécanisme de maintien de la cohérence lorsqu'un descripteur est généré et qu'il est contradictoire avec un
descripteur Di, tous les descripteurs issus de Dl sont alors supprimés.
Forme synthétique: Ajout d'une exception (ObjetDescripteur e Vraisemblance,) (Descripteurexception E Vraisemblance2) 2 5 =si rs lancI1e2 -Vrdbibenbl > (DescripteurLexception e Vraisemblancez) Maintien de la cohérence: (Objet_Descripteur E Vraisemblanoe)* e (Fctd_ mairntiencoherenoe Vraisemblance) - (Descripteur e Vraisemblance)* le signe - signifie que l'on ôte un ensemble de descripteurs de la
description.
Exemple d'exceptions:
Le descripteur suivant est présent dans la description
(ski-nautique 0,90) Un utilisateur avec un poids expert de 0,95 ajoute le descripteur suivant par annotation: (windsurf 0,95) Ce descripteur est une exception et vient remplacer le descripteur "ski- nautique". Exemple de maintien de cohérence: Le descripteur "ski- nautique" avait entraîné la génération du descripteur "peu-de-vent" par l'application de la règle "si ski-nautique inférer peu-de-vent". L'arrivée de l'exception "windsurf" entraîne la
disparition du fait "peu-de-vent".
Descripteurs abstraits spécifiques 2 o Modélisation d'un pseudo- héritage Un pseudo-héritage est un héritage o les descripteurs sont
transférés le long des relations de composition. La notion de pseudo-
héritage s'oppose à celle d'héritage des langages à objets o l'héritage se fait le long des relations de "classe/sous-classe". Le pseudo- héritage se
produit le long des relations "contenu/contenant".
Exemple:
Dans l'exemple représenté en figure 2, le descripteur "réalisateur" se distribue suivant la propriété "contient". Les plans issus des séquences d'un film possèdent le descripteur "réalisateur = M. Dupont", par activation de descripteurs abstraits. Codes procéduraux spécifiques Utilisation de collections de prototypes Lors de la deuxième étape, la fonction qui génère un objet descripteur à partir d'un objet peut être remplacée par une mesure de
similarité à une collection de prototypes.
Un prototype est un objet (multimédia ou descripteur) ou une
collection d'objets qui sert d'exemple à un concept.
Forme synthétique - Création d'un prototype: (ObjetMM E Vraisemblanoe) s (Interaction e Poidsexpert) (Prototype E Vraisemblanoe) - Utilisation de prototypes: (ObjetMM e Vraisemblance) s (Fct de similarité E Vraisemblance) c (prototypes e Vraisemblance)* (Objet_Descripteur e Vraisemblance)
- Création d'une collection -
(prototype e Vraisemblance) e (Interadction e Poidsexpert) > (Prototype e Vraisemblanoe) - Utilisation des collections (Objet e Vraisemblanoe) e (Fonction de sinlarité e Vraisemblance) s colledionprototypes = (Descripteur e RefobjetMM e Vraisemblance)
(collection de prototypes = arborescence de prototypes + poids).
La recherche d'images par l'exemple est un domaine déjà largement traité. Le premier système a avoir présenté ce genre d'approche est QBIC (Myron Flicker and ai., "Query By Image And Video Content: the QBIC system", Computer vol 28, Number 9, Septembre 1995). Dans ce cas là un seul exemple était fourni au système. Par la suite, d'autres équipes ont proposé d'établir des mesures de similarités entre un objet et un ensemble d'exemples ("Indexing and retrieval of multimedia objects at different levels of granularity", P. Faudemay, G. Durand, C. Seyrat and N. Tondre, Multimedia Storage and Archiving Systems IlI, Proceedings of SPIE, November 1998). Les ensembles de prototypes présentés n'étaient ni
hiérarchisés, ni pondérés par le poids de l'objet et de l'expert.
Profil utilisateur: Les fonctions de l'étape 2 peuvent prendre en compte des
connaissances spécifiques à l'utilisateur à qui la description est destinée.
On peut modéliser par exemple les associations d'idées de l'utilisateur, ses centres d'intérêts ou son humeur. La génération des descripteurs devient
alors une génération de descriptions personnalisées.
Forme synthétique: 2 0 (Descripteur e Vraisemblance)* c ((FoncdonUllisateur e Profilutisateur) E Vraisemblanoe) => Descripteur e Vraisemblance Le profil utilisateur sans profil émotionnel: L'invention propose une méthode de modélisation des profils utilisateurs, dont quelques modes opératoires et quelques exemples
d'utilisation sont décrits ci-dessous.
Le profil est constitué de deux composants principaux: un graphe
de profil utilisateur et une mémoire de travail.
Le graphe de profil utilisateur est un ensemble de noeuds liés entre eux par des arcs. Le tout forme préférentiellement un treillis, c'est a dire un
graphe acyclique de noeuds. La description détaillée des noeuds est faite
dans le paragraphe suivant.
s La mémoire de travail est une mémoire organisée de descripteurs. Une fonction d'effacement ôte régulièrement de cette mémoire un ensemble de descripteurs. Un exemple privilégié de la fonction d'effacement consiste à associer une estampille à chaque descripteur, pour
conserver en mémoire les n plus récents descripteurs.
Comme représenté aux figures 3 et 4, chaque noeud du graphe utilisateur contient une fonction d'entrée ge qui est une fonction d'agrégation des entrées, une valeur d'entrée e, une fonction d'activation ou de transition fa, une fonction de sortie g, une fonction de génération de descripteurs fd et une valeur d'intérêt Int. Les arcs sont pondérés par des valeurs numériques a, a', b, b'. Le noeud est sensible à la présence de
descripteurs dans la mémoire du profil.
Le mécanisme général de modélisation représenté en figure 5 est décomposé en plusieurs étapes pour des soucis de clarté. Certaines de
ces étapes peuvent cependant se dérouler en parallèle.
1: La mémoire de travail du profil est remplie par un sous-ensemble
de la description du document. Ce remplissage peut se faire en temps réel
(lorsque la description du document se modifie avec le temps) ou en temps
différé (lorsque l'on dispose déjà d'une description complète).
2 Les valeurs d'entrée des noeuds du profil sont calculées.
3: Les valeurs d'activation des noeuds sont calculées.
4: Un ensemble de descripteurs est généré et placé dans la
mémoire de travail du profil.
Certains descripteurs sont ôtés de la mémoire par la fonction d'effacement
6: Le processus reprend à l'étape 2.
A l'étape 2 de la figure 5, étant donné un noeud, sa valeur d'entrée est calculée en fonction des valeurs de sortie des noeuds entrants, de la pondération des arcset de la vraisemblance des descripteurs auxquels le noeud est sensible Valeur sortie arc entrant* (s Vraisemblanoe_descripteur e pondération arc entrant* ( Fonction entrée => Valeur entrée La valeur d'activation du noeud est calculée en fonction de sa valeur d'entrée par la fonction d'activation Valeur enftrée* s Fonctionadivation =>Valeuractivalion La fonction d'activation a un rôle d'arbitrage. Cela signifie qu'elle dépend des valeurs d'entrées de tous les noeuds et qu'elle peut décider de I'activation de l'un d'eux en conséquence. Ainsi elle peut n'activer qu'un nombre fini n de noeuds. Ce paramètre n est une variable globale du système. La fonction d'arbitrage peut par exemple ne conserver que les n noeuds dont les valeurs d'entrées sont les plus grandes. D'autres exemples
sont donnés dans ce qui suit.
De façon préférentielle, la fonction d'activation détermine la valeur
d'activation en deux étapes.
Dans une première étape, une fonction de transition locale à chaque noeud détermine une valeur d'activation possible du noeud, par
exemple par comparaison de la valeur d'entrée à un seuil de transition.
Dans une deuxième étape, une fonction d'arbitrage globale active un nombre fini n de noeuds, par exemple en triant les noeuds d'après leur valeur d'activation possible, après y avoir ajouté le cas échéant une
valeur aléatoire.
Dans une réalisation préférentielle, les paramètres de la fonction
d'arbitrage dépendent d'un ou plusieurs descripteurs.
Le vecteur des descripteurs à générer est donné par la fonction de génération de descripteurs. Le calcul se fait en fonction de l'activation du noeud et de son intérêt pour l'utilisateur: Valeuradvation Intérête Fondtiongérabondescripteur => (Descripteur e Vraisemblanoe)* Les descripteurs générés peuvent être des descripteurs actions et des descripteurs informations. Les premiers engendrent une action sur le monde (par exemple: enregistrement d'une séquence par un magnétoscope). Les deux types de descripteurs sont placés dans la
mémoire de travail.
La génération d'un descripteur peut dépendre d'une deuxième fonction d'arbitrage global. Cette fonction détermine quels descripteurs, parmi ceux générés à l'étape précédente, sont effectivement transférés dans la mémoire de travail. Dans ce cas, seuls les descripteurs présents dans la mémoire de travail sont utilisés par le système, soit comme
descripteurs information, soit comme descripteurs action.
Dans une réalisation préférentielle, cette deuxième fonction d'arbitrage choisit un deuxième nombre, m, de descripteurs à produire, ou bien un deuxième nombre ml de descripteurs information et un troisième nombre m2 de descripteurs d'action, par exemple en fonction de la
vraisemblance de ces descripteurs.
Le procédé peut être étendu à la sélection de descripteurs pour un
nombre quelconque de classes de descripteurs.
Dans une réalisation préférentielle, les paramètres de la deuxième
-fonction d'arbitrage dépendent d'un ou plusieurs descripteurs.
La fonction d'effacement ôte certains descripteurs de la mémoire de travail. Cette fonction peut par exemple ôter les n descripteurs les plus
anciens. D'autres exemples sont donnés dans ce qui suit.
Le vecteur de sortie si (c'est-à-dire l'ensemble de valeurs qui vont être propagées le long des arcs) est calculé en fonction de l'activation du noeud et des poids de sortie: Valeur activation Poids arc sortant* Foncion sortie => Valeur sortie arc sortant* La probabilité de génération des descripteurs générés: La fonction de génération utilise une probabilité a priori de génération par un noeud activé donné d'un ou plusieurs descripteurs. Pour un noeud et un descripteur donnés, la probabilité de générer le descripteur peut être fonction, par exemple, de la valeur de référence de cette probabilité a priori, de sa valeur précédente et du fait que des descripteurs
ont été générés ou non lors de l'étape précédente.
Lorsqu'un noeud activé génère un ou plusieurs descripteurs, la fonction de génération diminue la probabilité a priori d'une valeur qui peut dépendre des descripteurs produits. Cette probabilité a priori est ensuite
ramenée à la valeur de référence par exemple de façon asymptotique.
Ce mécanisme permet d'améliorer par exemple la qualité des programmes audiovisuels générés à partir d'un profil utilisateur. Dans ce contexte, la génération d'une séquence de sport (descripteur "sport") affaiblira la probabilité qu'il soit à nouveau généré au cours de la même session. Par contre, un programme de sport sera produit avec la même
*probabilité le jour suivant.
Dans ce procédé, la probabilité a priori peut être également remplacée par un coefficient de vraisemblance. Dans ce cas, la probabilité de génération de descripteur peut être par exemple une fonction non
linéaire du coefficient de vraisemblance.
Exemples préférentiels des différentes fonctions Plusieurs réalisations préférées sont proposées: - La fonction d'entrée effectue la norme du produit scalaire des poids d'entrées et des valeurs de sortie des noeuds entrants, y ajoute la vraisemblance maximum parmi celles des descripteurs
présents dans la mémoire auxquels le noeud est sensible.
- La fonction de sortie est une fonction qui aléatoirement décide de propager la valeur d'activation vers un seul des noeuds de
sortie. Le tirage aléatoire se fait sur la base des valeurs des arcs.
- La fonction de sortie propage de manière identique la
valeur d'activation sur tous les arcs.
- La fonction de sortie propage la valeur d'activation sur
tous les arcs proportionnellement à leur valeur.
- La fonction d'activation effectue un seuillage de la valeur
d'entrée du noeud.
- La fonction d'activation n'active que les n noeuds dont
les valeurs d'entrée sont les plus grandes.
- La fonction d'activation choisit n noeuds aléatoirement
avec des probabilités calculées en fonction des valeurs d'entrée.
- La fonction de génération des descripteurs ne génère les descripteurs que si la somme pondérée des valeurs d'activation du noeud et d'intérêt du noeud est supérieure à un certain seuil. La vraisemblance des descripteurs générés peut être égale à la valeur
d'activation du noeud.
- La fonction d'effacement peut ôter les n plus vieux descripteurs, n pouvant être égal au nombre de descripteurs ajoutés
à la mémoire de travail lors de l'étape 4.
- La fonction d'effacement peut ôter les n descripteurs les
moins récemment utilisés.
Le procédé selon l'invention est une extension des procédés de représentation sous forme de graphe comme les réseaux neuronaux ou 3 0 connectionistes, les réseaux bayésiens, les graphes de Sowa ou les réseaux markoviens qui constituent quatre réalisations possibles de l'invention. Cependant, celle-ci apporte trois principales originalités par rapport à ces procédés: elle a pour vocation de générer de descripteurs, elle dispose d'une mémoire de travail, et elle utilise une ou plusieurs fonctions d'arbitrage paramétrables (la fonction d'activation ou première fonction d'arbitrage, éventuellement une deuxième fonction d'arbitrage), notamment en termes de nombres de noeuds ou de descripteurs activés,
et de fonction de choix.
Ajout du profil émotionnel au profil utilisateur La structure décrite cidessus est enrichie d'informations à caractère émotionnel, qui caractérisent l'état d'esprit ou l'humeur de l'utilisateur et ont
une influence sur la génération des descripteurs.
La structure du profil utilisateur avec des informations d'affects Chaque noeud du graphe décrit ci-dessus (figure 4) est enrichi comme représenté en figure 6 de deux vecteurs appelés vecteur de sensibilité aux affects et vecteur d'incrément des affects. Chaque arc est aussi enrichi d'un vecteur de sensibilité aux affects. Un autre vecteur
appelé vecteur d'affects global représente le contexte actuel de l'utilisateur.
La valeur d'intérêt est ôtée du noeud.
Les fonctions ge, fa et fd sont modifiées de manière à ce qu'elles tiennent compte des différents vecteurs d'affects. Une fonction d'incrément des affects modifie la valeur de l'affect global en fonction de son ancienne
valeur et de toutes les vecteurs d'incréments de tous les noeuds activés.
Une deuxième fonction d'évolution temporelle modifie la valeur de l'affect
global en fonction du temps.
Mécanisme général: Le mécanisme représenté en figure 7 a été décomposé en plusieurs étapes pour des soucis de clarté. Certaines de ces étapes peuvent cependant se dérouler en parallèle (des références semblables à celles de la figure 5 sont utilisées pour faciliter la comparaison des figures): 1: La mémoire du profil est remplie par un sous ensemble de la
description du document. Ce remplissage peut se faire en temps réel
(lorsque la description du document se modifie avec le temps) ou en temps
différé (lorsque l'on dispose déjà d'une description complète). Un ensemble
de descripteurs est ôté par la fonction d'effacement.
2: Les valeurs d'entrée des noeuds du profil sont calculées.
3: Les valeurs d'activation des noeuds sont calculées.
4: Un ensemble de descripteurs est généré et replacé dans la
mémoire utilisateur.
5: Le vecteur d'affects global est modifié en fonction de tous les
vecteurs d'incréments des noeuds activés.
6: Le vecteur d'affects global est modifié.
Certains descripteurs sont ôtés de la mémoire par la fonction d'effacement.
7: Le processus reprend à l'étape 2.
Détail des étapes: 2: Pour un noeud i, le vecteur d'entrée est calculée en fonction des valeurs de sortie des noeuds entrants, de la pondération des arcs, de la sensibilité aux affects des arcs entrants, du vecteur d'affects global et du vecteur des vraisemblances des descripteurs auxquels le noeud est sensible Valeur sortie noeudentran* e Pondération arc* 2 5 z Sensibiltéaffedsarc* s Affecdglbal s Vraisemblanoe_descripteur* s Fonction entrée =>Valeur entrée 3: La valeur d'activation du noeud i est calculée en fonction des valeurs d'entrée de tous les noeuds, du vecteur de sensibilité aux affects du noeud et du vecteur d'affects global Valeur entrée* Sensibilité_affedts_noeud g Affectgblobal s Fondion adivation => Valeur activation 4 Le vecteur des descripteurs à générer est donné par la fonction de déclenchement. Le calcul se fait en fonction de l'activation du noeud, de son vecteur de sensibilité aux affects et du vecteur d'affects global Valeuractvation s Sensibilité affedtsnoeud Affect_global F- ondogénérationdescripteurs => (Descripteur e Vraisemblance)* 5: Le vecteur d'affects global est modifié en fonction du vecteur d'incrément de tous les noeuds activés: Affectgblobal e Incrment _affedcts ó Forndctionincément => Affectgbbal 6: Le vecteur d'affects global se modifie avec le temps: Affectglobal s Fonction_evolution_temporelle => Affectglobal La probabilité de génération des descripteurs générés: Le mécanisme de variation des probabilités de génération est une fonction du même type que celle décrite en l'absence d'affects. Cependant, l'évolution de la probabilité de production d'un descripteur ainsi que la fonction de modification de cette probabilité dépendent du vecteur d'affects global, par exemple, à travers des coefficient de sensibilité à ce vecteur d'affects. On peut observer qu'un mécanisme similaire peut être obtenu en
décrémentant l'affect global à la suite de l'activation du noeud.
Exemples préférentiels des différentes fonctions: La fonction d'entrée peut se décomposer comme suit: pour chaque arc, on calcule une valeur de sensibilité 'S' de l'arc aux affects courants. S est égal à la norme d'un vecteur V. Ce vecteur est obtenu par le produit scalaire de la sensibilité aux affects de l'arc et du
vecteur d'affects global.
On calcule un vecteur de pondération des arcs 'P' dont chaque
composante est obtenue par la moyenne de 'S' et du poids de l'arc.
La valeur d'entrée du noeud est égale à la norme du produit i0 scalaire de 'P' avec le vecteur des valeurs de sortie des noeuds entrants, auquel on ajoute la vraisemblance maximum parmi celles des descripteurs
sensibles présents dans la mémoire.
- La fonction d'activation peut effectuer un seuillage de la valeur d'entrée. Le seuillage dépend du vecteur de sensibilité du noeud et du
vecteur d'affects global.
- La fonction d'activation peut faire un arbitrage et ne laisser s'activer
que les noeuds les plus sensibles aux affects courants.
- La fonction de génération des descripteurs ne génère les descripteurs que si la sensibilité aux affects du noeud est supérieure à un
certain seuil.
- La fonction d'incrément de l'affect global ajoute la moyenne des
vecteurs d'incrément des noeuds au vecteur d'affects global.
- La fonction d'évolution temporelle fait tendre de manière
asymptotique le vecteur d'affects global vers un état particulier.
Un des premiers articles évoquant l'intégration d'information sur les humeurs des utilisateurs est "Architecting Personalized Delivery of Multimedia Information", Shoshana Loeb, Communication of the ACM, Décembre 1992. La vocation de ce système est de proposer des morceaux de musique à un utilisateur. Ce système n'a qu'un modèle simpliste de lI'utilisateur qui comporte 5 humeurs différentes. Dans " Affective Computing ", MIT Press, 1997, Rosalind Picard traite des systèmes intégrant des profils émotionels. Elle s'intéresse tout particulièrement à la fonction de modification des affects (étape 6). Une originalité de l'invention réside dans la sensibilité aux affects des diverses fonctions du procédé et
dans leur utilisation pour contrôler la génération des descriptions.
Apprentissage du profil utilisateur et du profil émotionnel: Les pondérations des arcs et les vecteurs de sensibilité aux affects des noeuds sont obtenus par capture automatique du profil utilisateur. Lors d'une séance de visualisation, I'utilisateur à tendance à sauter (" zapper ") de documents multimédias en documents multimédias. Il visualise à chaque fois tout ou partie de ces documents. Etant donné que chacun de
ces documents possède une description, les deux informations suivantes
peuvent être obtenues à partir d'une interface d'accès à des contenus multimédias qui surveille les actions de l'utilisateur, cette interface pouvant être un lecteur de vidéo ou de musique, un navigateur "web", etc: - la fréquence de passage ("zapping") d'un document contenant un descripteur X vers un document contenant un descripteur Y - la durée de visualisation de chacun des documents. Dans le cas d'un navigateur "web", on pourra distinguer les temps de chargement de la page, le temps de visualisation après chargement, le nombre d'accès à la
page durant un intervalle de temps.
Ces informations sont utilisées pour pondérer le graphe du profil de la manière suivante: - la pondération des arcs reliant les noeuds est fonction de la probabilité de transition entre les deux descripteurs. Cette probabilité est obtenue à partir des fréquences de passage entre descripteurs Probabilité_de transition fondction => pondéon_arcs - les vecteurs de sensibilité aux affects des noeuds sont obtenus à
partir des durées de visualisation des documents par l'utilisateur.
Ae bbal C tem psvisuastion C foion => Vecteuraffeds Plusieurs profils dans un système Certains systèmes travaillent en coopération avec plus d'un utilisateur. Plusieurs profils utilisateurs peuvent être intégrés à un unique système de génération de descripteurs. Pour faciliter les interactions hommes - machines, il est même parfois utile que l'application elle-même dispose d'un profil "utilisateur". Ce profil particulier est appelé profil "système". Il est construit sur le même modèle que les profils utilisateurs. Il peut provenir du profil du propriétaire ou bien caractériser l'état propre du
système. L'espace mémoire est partagé entre tous les profils utilisateurs.
Une fonction supplémentaire permet de générer des descripteurs
dénotant l'état d'un ou de plusieurs des profils utilisateurs. La description
peut donc par exemple être complétée d'informations sur l'état d'humeur
d'un utilisateur. Le profil "système" peut se servir de ces descripteurs.
Cette fonction est une fonction permanente. Chaque modification du profil utilisateur sur lequel le système se focalise est immédiatement reportée dans les descripteurs associés. Dans une réalisation préférentielle, la fonction sélection ne se focalisera que sur les profils utilisateurs ayant un
poids important.
(ProfiLuubTlsateur e Poidsintérêt_ubtilisateur) C Fonctionsélecdion => (Desacripteur e Vraisemblance)* Les valeurs des poids intérêts associés aux profils utilisateurs
peuvent être modifiées par la présence de descripteurs.
(Descipteur E Vraisemblance)* s Fondionmodifcation_poids => Poids intérêt utilisateur Dans une réalisation de l'invention, ces descripteurs auront été
générés par le profil "système".
Exemple d'application: Un robot ménager comme le robot aspirateur décrit plus haut sera souvent confronté à plusieurs personnes. Il doit disposer d'un modèle utilisateur pour chaque personne dont il doit prévoir les actions et connaître lI'humeur. En permettant la génération de descripteurs décrivant les affects de l'utilisateur, on rend possible la prise en compte de ces informations par
le robot. Ainsi, il pourra se montrer "discret" si son propriétaire est "énervé".
Adaptation dynamique du profil Le procédé permet l'ajout ou la suppression dynamique de noeuds et la modification des paramètres de chaque noeud et de chaque arc en cours d'utilisation. L'ajout ou la suppression dynamique de noeuds peut être effectué par la fonction d'arbitrage notamment en fonction du nombre de descripteurs, de la présence de nouveaux types de descripteurs dans la mémoire de travail, ou de la création ou non de nouveaux descripteurs par
le système pendant une période.
La modification des différents paramètres du profil utilisateur, comme la valuation des arcs ou la probabilité de transition d'un noeud, est possible notamment par augmentation ou diminution de ces paramètres, enfonction d'une interaction de l'utilisateur ou par renforcement des arcs et des noeuds parcourus et affaiblissement des autres, ou par une combinaison de ce mécanisme avec la valeur des affects, ou de façon
aléatoire, ou en fonction de l'état des noeuds suivants dans le graphe.
Sécurisation des profils utilisateurs:
Les profils utilisateurs font partie des descriptions du monde. Ils
devront être transportés sur les réseaux avec les descriptions des objets
multimédias. Ils seront aussi utiles dans d'autres contextes comme par exemple pour la proposition de programmes personnalisés par les
fournisseurs de contenus multimédias.
Ces données sont sensibles et la résolution des problèmes liés à leur confidentialité conditionne leur acceptation. Pour cela, I'invention propose une architecture réseau à trois composants: un serveur fournisseur de profil utilisateur (par exemple un magnétoscope personnel), un serveur d'anonymisation et un serveur consommateur de profil (par
exemple un fournisseur de contenus personnalisés).
Le serveur d'anonymisation tient à jour une table d'anonymisation, c'est à dire une table de correspondance entre des profils utilisateurs et les adresses réseaux des personnes qu'ils représentent. Ce serveur
d'anonymisation est un tiers de confiance.
Le protocole entre les différents serveurs est le suivant: - le fournisseur de profil envoie au serveur d'anonymisation son profil, son adresse réseau, des informations personnelles et sa requête, - le serveur d'anonymisation filtre ces informations et transmet la requête ainsi qu'une sous-partie des informations personnelles, mais pas l'adresse réseau de l'émetteur, - le consommateur de profil utilise les informations qu'il reçoit pour répondre au mieux à la requête, - le résultat de la requête est dirigé vers le serveur d'anonymisation qui grâce à sa table de correspondance redirige le résultat vers l'utilisateur. La partie des informations transmises aux consommateurs de profils est dépendante du nombre de profils enregistrés auprès du serveur d'anonymisation. Des mesures statistiques sur des échantillons permettent d'assurer la transmission maximale d'informations avec le minimum de risque.

Claims (15)

REVEND I CATIONS
1 - Procédé de génération de descriptions de
documents multimédia, appliqué au moyen d'un serveur et d'un réseau de transmission de données vers un système extérieur susceptible de répondre à une requête d'un utilisateur, ce procédé étant destiné à faciliter l'accès de l'utilisateur à ces documents, la navigation parmi ces documents et/ou leur interprétation et comprenant une première étape d'analyse et de segmentation temporelle et/ou spatiale d'un document multimédia en une pluralité d'objets multimédia auxquels sont associées des vraisemblances, caractérisé en ce qu'il comprend également: - une deuxième étape de génération d'objets descripteurs enregistrés dans une mémoire de travail et générés par application de fonctions aux objets multimédia précités, ces objets descripteurs étant associés à des vraisemblances et comprenant des descripteurs informations, des descripteurs actions et des descripteurs abstraits, ces derniers contenant chacun une référence à un objet décrit et des fonctions définissant des mécanismes de réflexe, - les fonctions de génération de descripteurs dans la deuxième étape comprenant au moins une de celles consistant à: appliquer à un objet multimédia une fonction de similarité avec une collection préétablie de prototypes d'objets multimédia ou de descripteurs, - créer des exceptions par acceptation de nouveaux descripteurs qui contredisent des descripteurs déjà obtenus quand la vraisemblance d'un nouveau descripteur est supérieure à celle du descripteur déjà obtenu et que la différence de leurs vraisemblances est supérieure ou égale à un seuil prédéterminé, - modifier les fonctions de génération de descripteurs par un profil utilisateur comprenant un ensemble modélisé de connaissances spécifiques à un
utilisateur à qui une description est destinée,
le profil utilisateur étant constitué d'un graphe de noeuds reliés par des arcs et d'une mémoire de travail contenant un ensemble organisé de descripteurs avec une fonction d'effacement des descripteurs, et étant transmissible par le serveur sur le réseau de transmission de données au système extérieur précité
susceptible de répondre à une requête de l'utilisateur.
2 - Procédé selon la revendication 1, caractérisé en ce qu'il comprend une troisième étape d'activation de descripteurs abstraits par déclenchement d'un mécanisme de réflexe d'un descripteur abstrait en réponse à une modification de son état ou à une requête sur son état, cette activation permettant de générer
d'autres descripteurs.
3 - Procédé selon la revendication 1 ou 2, caractérisé en ce que, dans la première étape, il consiste à ajouter aux objets multimédia des descripteurs de référence décrivant les relations entre les objets multimédia et les objets dont ils sont issus. 4 - Procédé selon la revendication 2 ou 3, caractérisé en ce que, dans la troisième étape, le déclenchement d'un mécanisme de réflexe d'un descripteur abstrait provoque le déclenchement de mécanismes de réflexe d'autres descripteurs abstraits et en ce que le procédé comprend un mécanisme de marquage de ces descripteurs abstraits pour éviter des activations en boucle fermée de deux ou plusieurs
descripteurs abstraits.
- Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
consiste à utiliser une ou des ontologies dans les
mécanismes de réflexe des descripteurs abstraits.
6 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
consiste à activer des descripteurs abstraits en vue de réaliser un pseudo-héritage, consistant en un transfert d'un descripteur le long d'une relation
contenu/contenant.
7 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce que les
fonctions utilisées pour la segmentation d'un document multimédia dans la première étape et/ou pour la génération de descripteurs dans la deuxième étape comprennent un code procédural, tel par exemple qu'un procédé algorithmique de segmentation ou d'extraction d'informations. 8 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
consiste, dans la première étape, à créer une collection de prototypes par application à un ou plusieurs objets multimédia d'une interaction (ou introduction de données par un agent extérieur)
associée à un poids expert ou vraisemblance.
9 - Procédé selon l'une des revendications
précédentes, caractérisé en ce que les fonctions de génération de descripteurs dans la deuxième étape
comprennent des règles de production.
10 - Procédé selon la revendication 9, caractérisé en ce qu'il consiste également à créer des règles par
application de métarègles à d'autres règles.
11 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce que les
fonctions de génération de descripteurs de la deuxième étape comprennent des interactions (introduction de données par un agent extérieur) permettant la
production d'annotations.
12 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
comprend un mécanisme de maintien de la cohérence des descripteurs générés à la deuxième étape, consistant à supprimer les descripteurs issus d'un descripteur
contredit par une exception.
13 - Procédé selon l'une des revendications 1 à
12, caractérisé en ce que l'établissement du profil utilisateur consiste à remplir la mémoire de travail par un ensemble de descripteurs d'un document, en temps réel ou en temps différé, à supprimer de la mémoire un ensemble de descripteurs précédents, à calculer des valeurs d'entrée des noeuds du profil, à calculer des valeurs d'activation des noeuds, à générer un nouvel ensemble de descripteurs et à l'introduire dans la
mémoire de travail.
14 - Procédé selon la revendication 13, caractérisé en ce que le graphe de noeuds précité est
un graphe acyclique en treillis.
- Procédé selon la revendication 13 ou 14, caractérisé en ce que chaque noeud contient une fonction d'agrégat des entrées, une valeur d'entrée, une fonction d'activation ou de transition, une fonction de sortie, une fonction de génération de descripteurs et une valeur d'intérêt, et en ce que des valeurs numériques de pondération sont affectées aux arcs reliant les noeuds, une valeur de pondération d'un arc correspondant par exemple à la probabilité que l'utilisateur ayant vu un descripteur contenu dans un premier noeud souhaite voir un autre descripteur contenu dans un autre noeud relié par l'arc précité au premier noeud ou à la probabilité que l'utilisateur 3-7 pense à l'autre descripteur quand il a vu le
descripteur contenu dans le premier noeud.
16 - Procédé selon la revendication 15, caractérisé en ce qu'il comporte une fonction d'arbitrage déterminant, parmi des noeuds candidats à une activation, ceux qui sont activés à un moment donné, en fonction d'un descripteur du nombre de noeuds pouvant être activés et des paramètres d'activation
associés à chaque noeud.
17 - Procédé selon une des revendications 13 à 16,
caractérisé en ce qu'il consiste à ajouter des informations à caractère émotionnel au profil utilisateur, en associant à chaque noeud un vecteur de sensibilité aux affects pour chaque fonction du noeud et un vecteur d'incrément d'affects, un vecteur de sensibilité aux affects à chaque arc et un contexte d'affects ou vecteur d'affects global à l'ensemble du graphe, les fonctions d'entrée, d'activation ou de transition et de génération de descripteurs contenues dans les noeuds étant modifiées pour tenir compte du vecteur d'affects global et des vecteurs de sensibilité
aux affects.
18 - Procédé selon la revendication 17, caractérisé en ce que ladite fonction de génération de descripteurs génère les descripteurs à partir de la valeur d'activation du noeud, du vecteur de sensibilité
aux affects du noeud et du vecteur d'affects global.
19 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
comprend une itération des étapes précitées.
- Procédé selon la revendication 19, caractérisé en ce qu'il prend en compte plusieurs profils utilisateurs, constitués de la façon précitée et dont une copie de l'état est enregistrée en mémoire de travail, et une fonction de sélection et d'arbitrage déterminant les profils utilisateurs actifs à un moment donné. 21 - Procédé selon l'une quelconque des
revendications précédentes, caractérisé en ce qu'il
comprend des moyens pour rendre anonyme un profil utilisateur, en particulier pour sa transmission à un système extérieur tel par exemple qu'un serveur dans un réseau de transmission de données et pour l'envoi d'une
réponse du serveur vers l'utilisateur.
FR9900966A 1999-01-28 1999-01-28 Procede de generation de descriptions de documents multimedia Expired - Fee Related FR2789196B1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR9900966A FR2789196B1 (fr) 1999-01-28 1999-01-28 Procede de generation de descriptions de documents multimedia
PCT/FR2000/000184 WO2000045293A1 (fr) 1999-01-28 2000-01-27 Procede de generation de descriptions de documents multimedia, et dispositif associe

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9900966A FR2789196B1 (fr) 1999-01-28 1999-01-28 Procede de generation de descriptions de documents multimedia

Publications (2)

Publication Number Publication Date
FR2789196A1 true FR2789196A1 (fr) 2000-08-04
FR2789196B1 FR2789196B1 (fr) 2001-03-30

Family

ID=9541330

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9900966A Expired - Fee Related FR2789196B1 (fr) 1999-01-28 1999-01-28 Procede de generation de descriptions de documents multimedia

Country Status (2)

Country Link
FR (1) FR2789196B1 (fr)
WO (1) WO2000045293A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256720B (zh) * 2020-10-21 2021-08-17 平安科技(深圳)有限公司 数据成本计算方法、***、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0690413A2 (fr) * 1994-06-27 1996-01-03 Institute of Systems Science Système de localisation automatique des limites de segment vidéo et d'extraction de trames-clefs
WO1997040454A1 (fr) * 1996-04-25 1997-10-30 Philips Electronics N.V. Extraction video de sequences comprimees mpeg a l'aide de signatures dc et de mouvement
EP0805405A2 (fr) * 1996-02-05 1997-11-05 Texas Instruments Incorporated Détection d'événements de mouvement pour l'indexation de vidéos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0690413A2 (fr) * 1994-06-27 1996-01-03 Institute of Systems Science Système de localisation automatique des limites de segment vidéo et d'extraction de trames-clefs
EP0805405A2 (fr) * 1996-02-05 1997-11-05 Texas Instruments Incorporated Détection d'événements de mouvement pour l'indexation de vidéos
WO1997040454A1 (fr) * 1996-04-25 1997-10-30 Philips Electronics N.V. Extraction video de sequences comprimees mpeg a l'aide de signatures dc et de mouvement

Also Published As

Publication number Publication date
FR2789196B1 (fr) 2001-03-30
WO2000045293A1 (fr) 2000-08-03

Similar Documents

Publication Publication Date Title
EP2370938A2 (fr) Procede et systeme pour la fusion de donnees ou d'information
Park et al. Sumgraph: Video summarization via recursive graph modeling
US8942542B1 (en) Video segment identification and organization based on dynamic characterizations
Sheth Citizen sensing, social signals, and enriching human experience
Davis et al. From context to content: leveraging context to infer media metadata
KR102068790B1 (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
CN106796593A (zh) 基于社交数据和用户行为优先化媒体
FR2822261A1 (fr) Procede de navigation par calcul de groupes, recepteur mettant en oeuvre le procede, et interface graphique pour la presentation du procede
EP3267333A1 (fr) Traitement local de données biométriques pour un système de sélection de contenu
Elahi et al. Recommender systems: Challenges and opportunities in the age of big data and artificial intelligence
Unger et al. Inferring contextual preferences using deep encoder-decoder learners
Patel et al. Video representation and suspicious event detection using semantic technologies
US11010935B2 (en) Context aware dynamic image augmentation
WO2016092218A1 (fr) Moyens pour déterminer un niveau de pertinence d'une ressource dans un système de traitement d'informations
CN114443916B (zh) 一种面向试验数据的供需匹配方法及***
FR2789196A1 (fr) Procede de generation de descriptions de documents multimedia
Aichroth et al. Mico-media in context
Göring et al. Extended features using machine learning techniques for photo liking prediction
Amali et al. Semantic video recommendation system based on video viewers impression from emotion detection
Leszczynski et al. Conversational Music Retrieval with Synthetic Data
Salehin et al. Adaptive fusion of human visual sensitive features for surveillance video summarization
Arifin et al. A Novel Probabilistic Approach to Modeling the Pleasure-Arousal-Dominance Content of the Video based on" Working Memory"
Ghozia et al. Intelligence Is beyond Learning: A Context‐Aware Artificial Intelligent System for Video Understanding
Wood Exploiting semantics for personalized story creation
CN117591697B (zh) 基于人工智能和视频处理的文本推荐方法和***

Legal Events

Date Code Title Description
ST Notification of lapse