FR2851873A1

FR2851873A1 - Video scene characterization process/mechanism/programme computer having image succession decoupled/regrouped with temporary trial step group planes searching list and labelling where scene not assigned and attached group

Info

Publication number: FR2851873A1
Application number: FR0350277A
Authority: FR
Inventors: Lionel Oisel; Clerc Francois Le; Bertrand Chupeau
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2003-07-01
Filing date: 2003-07-01
Publication date: 2004-09-03

Abstract

The video scene characteristic obtaining system has a succession of images which are decomposed and regrouped following similarities. There is a step of temporary trial of group planes. The list is searched and if not labelled a number is assigned to the scene and the plane. A scene number is attached to all group planes.

Description

La présente invention concerne un procédé d'obtention deThe present invention relates to a process for obtaining

scènes caractéristiques d'une vidéo, un dispositif pour mise en oeuvre et un produit programme d'ordinateur. Elle a des applications dans le domaine du traitement des données vidéo, y 5 compris multimédia, notamment pour automatiser la réalisation de résumés de films, et par exemple afin de faciliter les recherches dans des bases de données vidéo à partir desdits résumés. characteristic scenes of a video, a device for implementation and a computer program product. It has applications in the field of video data processing, including multimedia, in particular for automating the production of film summaries, and for example in order to facilitate searches in video databases from said summaries.

On connaît déjà des systèmes permettant d'extraire automatiquement des images caractéristiques de différents plans 10 d'une vidéo. A cette fin, pour chaque image, une signature est calculée en utilisant des attributs des images comme la couleur, la structure de l'image ou la position temporelle. Un regroupement d'images par analyse des signatures peut être ensuite effectué par une méthode d'analyse de données, par exemple de classement et 15 regroupement en fonction des distances entre signatures, ce qui permet de regrouper les images en plans et les différents plans en groupe de plans présentant des similarités visuelles. Ce regroupement, plus connu sous l'appellation anglaise de " clustering ", a pour but de grouper des données en exploitant 20 des mesures de distances ou similarités entre celles-ci, des données faiblement distantes étant regroupées au sein d'une même classe. Une application relative aux données vidéo numériques concerne la construction automatique de résumés vidéo. Systems are already known for automatically extracting characteristic images from different planes of a video. For this purpose, for each image, a signature is calculated using image attributes such as color, image structure, or time position. A grouping of images by signature analysis can then be performed by a method of data analysis, for example classification and grouping according to the distances between signatures, which makes it possible to group the images into plans and the different plans into group of shots with visual similarities. This grouping, better known under the name of "clustering", aims to group data by exploiting distance measurements or similarities between them, with weakly distant data being grouped together within the same class. An application for digital video data is the automatic construction of video summaries.

Plus généralement, dans le domaine de la construction de résumés vidéo, deux grandes classes de méthodes sont utilisées. More generally, in the field of the construction of video abstracts, two major classes of methods are used.

La première classe consiste, à partir de l'information image, à réduire la redondance dans la vidéo en sélectionnant un certain nombre d'images clé non redondante en terme de contenu et 30 représentant globalement l'information visuelle associée à la vidéo. Un exemple des méthodes s'apparentant à cette première classe peut être trouvé dans l'article de M. Yeung et B. Yeo. The first class consists, from the image information, in reducing the redundancy in the video by selecting a certain number of non-redundant keyframes in terms of content and generally representing the visual information associated with the video. An example of methods similar to this first class can be found in the article by Mr. Yeung and B. Yeo.

"Segmentation of video by clustering and graph analysis", Computer Vision and Image Understanding, vol 71, no 1, July, pp 35 94-109, 1998. Cette dernière méthode repose sur une représentation par graphe directionnel associé aux groupes précédemment construits. Chaque noeud du graphe est constitué des groupes de plans. Une arête entre un noeud ni et un noeud n2 est ajoutée si un plan appartenant au premier noeud précède 5 immédiatement un plan appartenant à n2. La deuxième phase de l'algorithme consiste à détecter les sous-graphes formant des boucles, l'ensemble des plans associés à ces sous graphes formant une scène. En plus de la complexité des algorithmes mis en oeuvre, ce type de méthode présente l'inconvénient de ne pas 10 être lié à la structuration de la vidéo et est particulièrement dépendant du contenu visuel, en conséquence de quoi, elle ne prend pas en compte des aspects sémantiques (de signification) du contenu de la vidéo. "Computer Vision and Image Understanding," vol 71, no. 1, July, pp. 94-109, 1998. This latter method is based on a graphical representation of the previously constructed groups. Each node of the graph consists of groups of planes. An edge between a node n1 and a node n2 is added if a plane belonging to the first node immediately precedes a plane belonging to n2. The second phase of the algorithm consists in detecting the sub-graphs forming loops, the set of planes associated with these sub-graphs forming a scene. In addition to the complexity of the algorithms used, this type of method has the disadvantage of not being linked to the structuring of the video and is particularly dependent on the visual content, as a result of which, it does not take into account. semantic aspects (of meaning) of the video content.

La deuxième classe cherche à retrouver la structure de la 15 vidéo afin d'offrir une table des matières qui pourra ensuite être utilisée pour des applications de résumés ou de navigation. Parmi ces dernières méthodes on peut mentionner celles utilisant l'entrelacement temporel afin de reconstruire des scènes à partir de plans. Elles peuvent être regroupées en deux catégories 20 principales qui sont, d'une part, les approches séquentielles o la détection de scènes est consécutive à la phase de regroupement (les deux étapes sont réalisées indépendamment) et, d'autre part, les approches couplées o la phase de regroupement et de décomposition en scène sont alternées. A titre d'exemple de ces 25 méthodes on peut citer l'article de A. Hanjalik and H. Zhang. " An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis", IEEE trans. Circuits and Systems for Video Technology, vol 9, no 8, Dec 99. Le classement (clustering) et le regroupement en scènes y sont effectués 30 simultanément. La limitation principale de ces approches repose sur la causalité de leur mise en oeuvre ne garantissant pas une solution optimale du découpage en scènes obtenu. The second class seeks to find the structure of the video in order to provide a table of contents which can then be used for summary or navigation applications. Among these latter methods, those using temporal interleaving can be mentioned in order to reconstruct scenes from shots. They can be grouped into two main categories which are, on the one hand, the sequential approaches where the detection of scenes is consecutive to the regrouping phase (the two steps are carried out independently) and, on the other hand, the coupled approaches. o The phase of grouping and decomposition on stage are alternated. As an example of these methods, there is the article by A. Hanjalik and H. Zhang. "An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis", IEEE trans. Circuits and Systems for Video Technology, Vol. 9, No. 8, Dec 99. Clustering and grouping into scenes are performed simultaneously. The main limitation of these approaches lies in the causality of their implementation, which does not guarantee an optimal solution of the scene division obtained.

La présente invention s'apparente aux méthodes et dispositifs de la deuxième classe et elle consiste, après 35 segmentation en plans de la vidéo, extraction d'images clé représentatives de ceux-ci, regroupement des images-clé via l'utilisation de similarités visuelles, en un regroupement des différents groupes de plans sur des critères d'entrelacement temporel. L'objectif de la présente invention est donc de fournir 5 des moyens permettant de sélectionner un certain nombre de séquences représentant des moments clés ou caractéristiques d'une vidéo donnée et donc de parvenir à un résumé significatif de ladite vidéo. L'élément temps, déroulement, est donc pris en compte et à partir d'un regroupement initial de plans sur un critère 10 de similarité visuelle et on exploite l'entrelacement temporel des groupes de plans obtenus afin d'en déduire une structuration en scènes. Au fur et à mesure que les scènes sont détectées, un calcul caractérisant l'importance de chaque scène est effectué. The present invention is similar to the methods and devices of the second class and consists, after video segmentation, of extracting keyframes representative of them, grouping keyframes via the use of visual similarities. , in a grouping of the different groups of plans on temporal interleaving criteria. The object of the present invention is therefore to provide means for selecting a certain number of sequences representing key moments or characteristics of a given video and thus to arrive at a significant summary of said video. The time element, unwinding, is thus taken into account and starting from an initial grouping of planes on a criterion of visual similarity and the time interleaving of the groups of plans obtained is exploited in order to deduce a structuring in scenes. . As the scenes are detected, a calculation characterizing the importance of each scene is made.

Une fois les scènes obtenues, un filtrage est effectué afin de n'en 15 conserver que les plus importantes et une vidéo peut alors être résumée soit par la concaténation de portions de ces scènes soit par l'extraction d'images clé caractéristiques du contenu de ces scènes. Once the scenes obtained, a filtering is carried out in order to keep only the most important ones and a video can then be summarized either by the concatenation of portions of these scenes or by the extraction of key images characteristic of the content of these scenes.

L'invention concerne tout d'abord un procédé d'obtention de 20 scènes caractéristiques d'une vidéo formée d'une succession d'images et comportant des étapes de: - décomposition préalable de la vidéo en plans comportant chacun un certain nombre d'images de la vidéo, à chaque plan étant associé au moins un attribut, - regroupement des plans présentant des similarités dudit attribut en groupes de plans. The invention firstly relates to a method for obtaining characteristic scenes of a video formed of a succession of images and comprising steps of: - preliminary decomposition of the video into shots each comprising a number of images of the video, with each plane being associated with at least one attribute, - grouping of the plans having similarities of said attribute into groups of plans.

Selon l'invention, le procédé comporte les étapes de - tri temporel de la liste des groupes de plans, - parcours de ladite liste et, pour chaque groupe de plans de la 30 vidéo, si le premier plan dudit groupe n'a pas encore été étiqueté comme appartenant à une scène, création d'une nouvelle scène en lui attribuant un numéro et affectation du numéro de cette scène à ce plan, - affectation dudit numéro de ladite scène à tous les plans du 35 groupe de plans. According to the invention, the method comprises the steps of - time sorting of the list of groups of plans, - of said list and, for each group of plans of the video, if the first plane of said group has not yet has been labeled as belonging to a scene, creating a new scene by assigning a number and assignment of the number of this scene to this plane, - assigning said number of said scene to all the plans of the group of plans.

Dans divers modes de mise en oeuvre du procédé, les moyens suivants pouvant être combinés selon toutes les possibilités techniquement envisageables, sont employés - l'étape de décomposition comporte: - une phase de segmentation de la vidéo avec détermination d'un ensemble ordonné de plans distincts successifs identifiés par des numéros de plans Pj, les images appartenant à chaque plan se distinguant des autres images des autres plans selon un ensemble de critères de 10 segmentation, et - une phase d'extraction d'attribut avec détermination pour chaque plan Pj d'un ensemble de ni images clés, ni ≥1, selon un ensemble de critères d'extraction, et l'étape de regroupement s'effectue en regroupant des plans 15 pour lesquels des valeurs de signature d'image(s) clé(s) sont voisines selon un critère de distance en analyse de données, chaque groupe de plans étant identifié par un numéro de groupe de plans, - lors de l'étape de parcours on calcule en outre pour chaque 20 scène un scalaire se d'importance de scène égal au produit du nombre d'images du groupe de plans par le nombre d'images clés dans le groupe de plans, - le procédé comporte les phases suivantes - on crée une liste C de structures Ci de plans, chaque 25 structure C, = (nF,dl,f,,{(e, P,),k < j <j, Pj X Cm,Vb'm X il) correspondant à un groupe de plans et associant un nombre ni d'images clés contenues dans le groupe, di étant le numéro de la première image dans le groupe et fi étant le numéro de la dernière image dans le groupe ainsi que, pour 30 chaque plan Pj, un numéro de scène ej initialement mis à zéro, - on crée une liste A de structures Ae de scènes, chaque structure Ae = (e, Se, Ne, De, Fe) permettant d'associer à chaque numéro de scène e, le scalaire se d'importance de 35 scène, des numéros d'images de début De et fin Fe de scène et un nombre Ne d'images clés contenues dans la scène, la liste A étant initialement vide, - les structures de la liste C étant classées temporellement en fonction des numéros d'images de début di de chaque structure par ordre croissant lors de l'étape de tri temporel, - une variable de numéro de scène e est initialisé à zéro, - après positionnement sur la première structure de plan Ci de la liste C, la liste C classée est balayée depuis l'origine par ordre croissant en effectuant, successivement, sur 10 chaque structure Ci courante les opérations suivantes: (a) si le numéro de scène ek du premier plan Pk de la structure Ci courante est nul alors: (i) si la valeur courante de e est différente de zéro, on calcule et affecte la valeur (Fe-De)*Ne à 15 se pour la structure Ae de scène, (ii) la variable de numéro de scène e est incrémentée de un, soit e=e+1, (iii) une structure de scène Ae est créée dans la liste A et on affecte la valeur e à ee, la valeur di à 20 De, la valeur fi à Fe, la valeur ni à Ne, (iv) la valeur e est affectée aux numéros de scènes ej des plans Pj du film dont le numéro est compris entre le numéro du premier plan de la structure courante et le numéro du dernier plan de 25 la structure courante, premier et dernier compris, soit pou r les plans P,k < j <, (v) passage à l'opération (d), (b) si le numéro de scène el du dernier plan Pl de la structure Ci courante est égal à e alors: (i) la valeur ni est ajoutée à Ne pour la structure Ae de scène, (ii) passage à l'opération (d), (c) sinon: (i) la valeur e est affectée aux numéros de scènes ej des plans Pj de la structure Ci en cours d'opération, (ii) la valeur fi est affectée à Fe et la valeur ni est ajoutée à Ne pour la structure Ae de scène, (d) si il y a une structure Ci de plans suivante, prise en compte de ladite structure Ci de plans suivante qui devient structure Ci courante et passage à l'opération (a), (e) si la valeur courante de e est différente de zéro, on calcule et affecte la valeur (Fe-De)*Ne à se pour la structure Ae de scène, - les opérations (a)(i) et (e) sont omises et on effectue en outre une étape supplémentaire dans laquelle on balaye la liste A de 15 scènes et pour chaque structure Ae de scène on calcule et affecte la valeur (Fe-De) *Ne à se, - en outre, dans la structure Ci de plans, on associe à chaque plan Pi une liste de son/ses images clés Ki, - le procédé comporte en outre une étape de sélection de scènes 20 dans laquelle on garde les scènes (Ae) pour lesquelles le scalaire se d'importance de scène est supérieur à une valeur déterminée, - le procédé comporte en outre une étape de sélection de scènes dans laquelle on garde les k scènes ayant les plus grandes valeurs de scalaire se d'importance de scène, k étant un entier positif non 25 nul inférieur au nombre total de scènes, - en outre, après l'étape de sélection, on récupère à partir de la liste C de structures Ci de plans, les plans correspondants aux scènes sélectionnées pour les assembler en un résumé de la vidéo sous forme d'une suite de plans, - en outre, dans le cas o l'on associe à chaque plan Pi une liste d'images clés Ki dans la structure Ci de plans, après l'étape de sélection, on récupère à partir de la liste C de structures Ci de plans, les images clés Ki des plans correspondants aux scènes sélectionnées pour les assembler en un résumé de la vidéo sous 35 forme d'une suite d'images clés, - pour former le résumé on n'utilise qu'une partie des images résultant de la sélection et que l'on assemble une partie des images des plans de chaque structure Ci de plans, de préférence des images médianes de chaque plan, respectivement une partie 5 des images clés de chaque structure Ci de plans, de préférence au moins l'image clé médiane, pour former le résumé, - on met en oeuvre les phases et étapes dans les moyens électroniques qui sont en logique programmable avec un programme et la logique programmable comporte un 10 microprocesseur ou processeur de signaux numériques (DSP) et, de préférence, du type micro-ordinateur généraliste ou dédié, - les étapes sont effectuées successivement, - les étapes sont effectuées en pipeline (traitement en chevauchement d'étapes), - les étapes sont effectuées en parallèle, - les étapes sont effectuées en temps réel, au fur et à mesure de la réception et du stockage des images de la vidéo dans les moyens électroniques, - les étapes sont effectuées en temps différé, sur des images de la 20 vidéo stockées dans les moyens électroniques, - on met en oeuvre des moyens électroniques qui sont en logique câblée, - la logique câblée comporte au moins un circuit intégré, - on met en oeuvre des moyens électroniques qui sont en logique 25 programmable avec un programme, - la logique programmable comporte un microprocesseur ou processeur de signaux numériques (DSP) et sont, de préférence, du type micro-ordinateur généraliste ou dédié. In various embodiments of the method, the following means can be combined according to all technically feasible possibilities, are used - the decomposition step comprises: - a segmentation phase of the video with determination of an ordered set of plans successive distinct ones identified by plane numbers Pj, the images belonging to each plane being distinguishable from the other images of the other planes according to a set of segmentation criteria, and - an attribute extraction phase with determination for each plane Pj d a set of neither keyframes nor ≥1, according to a set of extraction criteria, and the grouping step is carried out by grouping plans for which key image signature values (s) are ) are neighbors according to a distance criterion in data analysis, each group of planes being identified by a group number of planes, - during the step of travel is further calculated for each 20 scene a scalar is of scene importance equal to the product of the number of images of the group of planes by the number of keyframes in the group of plans, - the method comprises the following phases - a list C of structures is created Ci of planes, each structure C, = (nF, d1, f ,, {(e, P,), k <j <j, Pj X Cm, Vb'm X il) corresponding to a group of planes and associating a number of keyframes contained in the group, di being the number of the first image in the group and fi being the number of the last image in the group and, for each plane Pj, a scene number ej initially set to zero, - one creates a list A of structures Ae of scenes, each structure Ae = (e, Se, Ne, De, Fe) allowing to associate with each scene number e, the scalar is of importance of 35 scene, start frame numbers De and end Fe scene and a number Ne of keyframes contained in the scene, the list A being initially empty, - the structures of the list C being temporally classified according to the starting frame numbers di of each structure in increasing order during the time sorting step, - a scene number variable e is initialized to zero, - after positioning on the first structure of plan C of the list C, the ranked list C is scanned from the origin in ascending order by performing, successively, on each current structure Ci the following operations: (a) if the scene number ek of the first plane Pk of the current structure Ci is zero then: (i) if the current value of e is different from zero, we calculate and assign the value (Fe-De) * Ne to 15 for the structure Ae of scene, (ii) the variable of scene number e is incremented by one, ie e = e + 1, (iii) a scene structure Ae is created in list A and we assign the value e to ee, the value di to 20 De, the value fi to Fe, the value Ne, (iv) the value e is assigned to the scene numbers ej of the planes Pj of the film whose number is between the number of the first plane of the current structure and the number of the last plane of the current structure, first and last included, for the planes P, k <j <, (v) passage in operation (d), (b) if the scene number el of the last plane Pl of the current structure Ci is equal to e then: (i) the value ni is added to Ne for the structure Ae of scene, ( ii) transition to operation (d), (c) otherwise: (i) the value e is assigned to the scene numbers ej of the planes Pj of the structure Ci during operation, (ii) the value fi is assigned at Fe and the value ni is added to Ne for the structure Ae of scene, (d) if there is a following structure Ci of planes, taken into account of the following structure Ci of planes which becomes structure Ci current and passage to the operation (a), (e) if the current value of e is different from zero, the value (Fe-De) * Ne to se for the scene structure Ae is calculated and assigned; ions (a) (i) and (e) are omitted and an additional step is performed in which the list A of 15 scenes is scanned and for each scene structure Ae the value (Fe-De) * is calculated and assigned Moreover, in the structure Ci of planes, each map Pi is associated with a list of its keyframes Ki, the method also comprises a scene selection step in which the scenes are kept. (Ae) for which the scalar is of scene importance is greater than a determined value, - the method further comprises a scene selection step in which the k scenes having the largest scalar values are of importance of the scene, where k is a positive non-zero integer less than the total number of scenes, - furthermore, after the selection step, from the list C of structures Ci of planes, the planes corresponding to the scenes selected for assemble them into a summary of the video in the form of a series of planes, - moreover, in the case where each map Pi is associated with a list of keyframes K i in the structure Ci of plans, after the selection step, we recover from from the list C of structures Ci of plans, the keyframes Ki of the plans corresponding to the selected scenes to assemble them into a summary of the video in the form of a sequence of keyframes, - to form the summary we do not use that a part of the images resulting from the selection and that one assembles a part of the images of the planes of each structure Ci of planes, preferably median images of each plane, respectively a part 5 of the key images of each structure Ci of planes, preferably at least the median keyframe, to form the summary, - the phases and steps are implemented in the electronic means which are in programmable logic with a program and the programmable logic comprises a microprocessor or signal processor Numé (DSP) and, preferably, general or dedicated micro-computer type, - the steps are carried out successively, - the steps are performed in pipeline (treatment overlapping steps), - the steps are performed in parallel, - the steps are carried out in real time, as and when the video images are received and stored in the electronic means, the steps are performed in non-real time, on video images stored in the electronic means electronic means are used which are in hardwired logic, the hardwired logic comprises at least one integrated circuit, electronic means which are in programmable logic with a program are used, the programmable logic comprises a microprocessor or digital signal processor (DSP) and are preferably of the general or dedicated microcomputer type.

L'invention concerne en second lieu un dispositif pour mise 30 en oeuvre d'un procédé d'obtention de scènes caractéristiques d'une vidéo formée d'une succession d'images, le dispositif comportant des moyens permettant d'effectuer les étapes suivantes: - décomposition préalable de la vidéo en plans comportant chacun un certain nombre d'images de la vidéo, à chaque plan étant associé au moins un attribut, - regroupement des plans présentant des similarités dudit attribut en groupes de plans. The invention relates secondly to a device for implementing a method for obtaining characteristic scenes of a video formed by a succession of images, the device comprising means making it possible to perform the following steps: prior decomposition of the video into shots each comprising a certain number of images of the video, with each shot being associated with at least one attribute; grouping of shots having similarities of said attribute into groups of shots.

Selon l'invention de dispositif, ce dernier comporte en outre des moyens permettant de réaliser les étapes suivantes - tri temporel de la liste des groupes de plans, - parcours de ladite liste et, pour chaque groupe de plans de la 10 vidéo, si le premier plan dudit groupe n'a pas encore été étiqueté comme appartenant à une scène, création d'une nouvelle scène en lui attribuant un numéro et affectation du numéro de cette scène à ce plan, - affectation dudit numéro de ladite scène à tous les plans du 15 groupe de plans. According to the device invention, the latter further comprises means for carrying out the following steps: time sorting of the list of groups of planes, of said list and, for each group of plans of the video, whether the foreground of said group has not yet been labeled as belonging to a scene, creation of a new scene by assigning a number and assignment of the number of this scene to this plane, - assignment of said number of said scene to all the plans from the group of plans.

Dans une variante du dispositif précédent, les moyens électroniques sont du type micro-ordinateur généraliste ou dédié. In a variant of the preceding device, the electronic means are of the general or dedicated microcomputer type.

L'invention concerne également un support informatique comportant un programme destiné au fonctionnement du dispositif 20 précédent. The invention also relates to a computer medium comprising a program for the operation of the preceding device 20.

L'invention concerne également un support informatique comportant un programme destiné au fonctionnement du dispositif précédent et au moins selon une des modalités procédurales parmi l'ensemble des modalités, y compris résultant de combinaisons 25 éventuelles, qui ont précédemment été listées. The invention also relates to a computer medium comprising a program intended for the operation of the preceding device and at least one of the procedural modalities among all the modalities, including resulting from possible combinations, which have previously been listed.

L'invention concerne enfin un produit programme d'ordinateur qui comprend des instructions de code de programme aptes à mettre en oeuvre le procédé précédemment indiqué lorsque le programme est exécuté dans un circuit électronique programmable. 30 (le circuit électronique programmable correspond ici à toute structure électronique de calcul pouvant être programmée, que ce soit un ordinateur, micro-ordinateur, microcontrôleur, processeur de signaux numériques, etc. ou un circuit en logique câblée configurable ou reconfigurable selon un programme, ainsi le terme programme d'ordinateur correspond en fait à programme de circuit électronique programmable) L'invention définit donc un procédé et un dispositif de sélection de séquences caractérisant le contenu d'une vidéo et 5 comportant en particulier des actions et moyens permettant la mise en oeuvre d'un algorithme rapide, de regroupement en scènes basé sur l'entrelacement temporel et la définition d'un critère de sélection de scènes. En d'autres termes et sous un autre angle de vue de décomposition des étapes et phases, on peut présenter 10 l'invention dans sa globalité procédurale comme étant une méthode de détection automatisée de scènes d'un film vidéo, le film vidéo numérisé et stocké dans des moyens électroniques étant formé d'une succession de plans formés d'images, chaque image étant identifiée par un numéro d'image unique dans laquelle des 15 étapes procédurales se répartissent en deux phases, une première phase de préparation et une seconde phase de détection, la première phase de préparation consistant en une première étape de segmentation du film depuis l'origine avec détermination d'un ensemble ordonné de plans distincts successifs identifiés par des 20 numéros de plans Pj et formés chacun de suites d'images successives exclusives, les images appartenant à chaque plan se distinguant des autres images des autres plans selon un ensemble de critères de segmentation, une deuxième étape d'extraction avec détermination pour chaque plan Pj d'un ensemble de ni images clés 25 selon un ensemble de critères d'extraction et une troisième étape de regroupement avec réunion au sein de groupes de plans exclusifs de plans distincts présentant des caractéristiques voisines, chaque groupe de plans étant identifié par un numéro de groupe de plans et regroupant des plans pour lesquels des valeurs 30 de signature d'image(s) clé(s) sont voisines selon un critère de distance en analyse de données, la seconde phase de détection consiste, quant à elle, en un processus itératif balayant une liste de groupes de plans, ladite liste regroupant les groupes de plans triés temporellement, et dans lequel pour chaque groupe, si le 35 premier plan du groupe courant n'appartient pas encore à une scène, on crée une nouvelle scène et o tous les plans du film dont le numéro est compris entre le numéro du premier plan du groupe courant et le numéro du dernier plan du groupe courant, premier et dernier compris, sont affectés à la nouvelle scène. Une 5 telle méthode qui est exploitée par des moyens programmables, du type ordinateur ou circuit dédié, permet l'automatisation de la création de résumés selon des critères parfaitement définis. The invention finally relates to a computer program product which comprises program code instructions able to implement the previously indicated method when the program is executed in a programmable electronic circuit. (The programmable electronic circuit corresponds here to any programmable electronic structure that can be programmed, be it a computer, microcomputer, microcontroller, digital signal processor, etc. or a wired logic circuit configurable or reconfigurable according to a program, thus, the term computer program is in fact a program of programmable electronic circuitry). The invention thus defines a method and a device for selecting sequences characterizing the content of a video and comprising in particular actions and means allowing the setting implementing a fast algorithm, grouping into scenes based on temporal interleaving and defining a criterion for selecting scenes. In other words and from another angle of view of decomposition of the steps and phases, the invention can be presented in its procedural entirety as being an automated detection method of scenes of a video film, the digitized video film and stored in electronic means being formed of a succession of image-formed planes, each image being identified by a unique image number in which procedural steps are divided into two phases, a first phase of preparation and a second phase the first preparation step consisting of a first step of segmenting the film from the origin with determination of an ordered set of successive distinct planes identified by plane numbers Pj and each formed of successive sequences of exclusive successive images. , the images belonging to each plane being distinguished from the other images of the other plans according to a set of segmentation criteria, u a second extraction step with determination for each plane Pj of a set of neither keyframes 25 according to a set of extraction criteria and a third step of grouping with meeting within groups of exclusive plans of distinct planes having characteristics neighboring, each group of planes being identified by a group number of planes and grouping plans for which key image signature values are similar according to a distance criterion in data analysis, the second detection phase consists, in turn, in an iterative process scanning a list of groups of plans, said list grouping groups of plans sorted temporally, and in which for each group, if the first plane of the current group does not belong still at a scene, we create a new scene and o all the shots of the film whose number is between the number of the foreground of the current group and the number of the last r shot of the current group, including first and last, are assigned to the new scene. Such a method, which is exploited by programmable means, of the computer or dedicated circuit type, makes it possible to automate the creation of summaries according to perfectly defined criteria.

La présente invention va maintenant être exemplifiée par la description qui suit, sans en être pour autant limitée, et en relation 10 avec: la Figure 1 qui représente un schéma général fonctionnel de l'invention, la Figure 2 qui représente un exemple de mise en oeuvre de l'invention avec des moyens informatiques, la Figure 3 qui représente un exemple de segmentation/regroupement et sélection dans un film vidéo, la Figure 4 qui représente schématiquement les résultats d'étapes de calcul d'un algorithme de mise en oeuvre de l'invention. The present invention will now be exemplified by the following description, without being limited thereto, and in relation to: Figure 1 which represents a functional block diagram of the invention, Figure 2 which shows an example of implementation of FIG. 3 which represents an example of segmentation / grouping and selection in a video film, FIG. 4 which schematically represents the results of calculation steps of an implementation algorithm of FIG. the invention.

Sur la Figure 1 les différentes étapes permettant la mise en 20 oeuvre de la méthode de l'invention sont listées et, à partir d'un signal ou flux vidéo 1 véhiculant un film vidéo, un découpage 2 en plans de la vidéo est effectué. Les plans 3 ainsi déterminés servent à l'extraction 4 d'images clés 5 qui permettent l'extraction 6 d'attributs 7 des images qui vont permettre par l'application 25 d'une technique d'analyse de donnée d'effectuer des regroupements basés sur lesdits attributs desdites images clés. Le regroupement 8 des images clés permet également le regroupement des plans auxquels appartiennent les images clés sous forme de groupes de plans 9 qui servent à la détection 10 de 30 scènes 11 selon une technique qui va être explicitée par la suite. In Figure 1 the various steps for implementing the method of the invention are listed and, from a video signal or stream 1 conveying a video film, a 2-plane cutting of the video is performed. The plans 3 thus determined are used for the extraction 4 of keyframes 5 which allow the extraction 6 of attributes 7 of the images which will make it possible, by the application of a data analysis technique, to perform groupings. based on said attributes of said keyframes. The grouping 8 of the keyframes also makes it possible to group the planes to which the keyframes belong in the form of groups of planes 9 which serve for the detection of 30 scenes 11 according to a technique which will be explained later.

Parmi les scènes 11 détectées, les plus pertinentes sont finalement sélectionnées 12 selon un critère qui va également être explicité par la suite. Among the detected scenes 11, the most relevant are finally selected 12 according to a criterion which will also be explained later.

Les étapes 2, 4, 6, 8 font partie d'une phase préalable de 35 préparation permettant d'obtenir des groupes de plans. Cette il phase de préparation consiste en une segmentation du film, une extraction avec détermination pour chaque plan P1 d'un ensemble de ni images clés selon un ensemble de critères d'extraction, un regroupement avec réunion au sein de groupes de plans exclusifs 5 de plans distincts présentant des attributs (ou caractéristiques) voisin. Ainsi, dans cette phase de préparation, après découpage 2 en plans de la vidéo i à partir du calcul pour chaque image d'une signature en utilisant notamment la couleur et/ou la structure de l'image, des images caractéristiques des différents plans de la 10 séquence sont extraites 4, ce sont des images clés 5 (au moins une par plan). L'étape suivante consiste à regrouper 8 les différents plans en groupe de plans 9 comportant chacun des plans se ressemblant. Cette étape de regroupement peut être obtenue par un calcul de distance statistique entre attributs 7 des images 15 clés associées à chaque plan. Steps 2, 4, 6, 8 are part of a pre-stage preparation phase for obtaining groups of planes. This preparation phase consists of a segmentation of the film, an extraction with determination for each plane P1 of a set of neither keyframes according to a set of extraction criteria, a grouping with meeting within groups of exclusive plans 5 of separate plans with similar attributes (or features). Thus, in this phase of preparation, after cutting into two planes of the video i from the calculation for each image of a signature using in particular the color and / or the structure of the image, characteristic images of the different planes of the image. the sequence is extracted 4, these are key images 5 (at least one per plane). The next step is to group together the different plans into a group of plans 9 each having similar plans. This grouping step can be obtained by a statistical distance calculation between attributes 7 of the key images associated with each plane.

L'étape 10 correspond à une phase de détection consistant en un processus itératif balayant une liste de groupes de plans, ladite liste regroupant les groupes de plans triés temporellement, et dans laquelle pour chaque groupe, si le premier plan du groupe 20 courant n'appartient pas encore à une scène, on crée une nouvelle scène et o tous les plans du film dont le numéro est compris entre le numéro du premier plan du groupe courant et le numéro du dernier plan du groupe courant, premier et dernier compris, sont affectés à la nouvelle scène. Step 10 corresponds to a detection phase consisting of an iterative process scanning a list of groups of planes, said list grouping the groups of plans sorted temporally, and in which for each group, if the first plane of the current group n ' does not yet belong to a scene, we create a new scene and o all the shots of the film whose number is between the number of the foreground of the current group and the number of the last shot of the current group, first and last included, are affected to the new scene.

L'étape 12 correspond à une phase de sélection de scènes qui sera explicitée ultérieurement. Step 12 corresponds to a phase of scene selection which will be explained later.

Ce traitement de la vidéo peut être effectué en temps réel ou direct, c'est-à-dire au fur et à mesure de la prise de vue du film vidéo. Toutefois, dans ce cas, le résumé ne peut être considéré 30 comme complet que lorsque la prise de vue se termine car des dernières images d'une prise de vue peuvent former un plan particulier qui soit particulièrement significatif à lui seul, par exemple un générique avec une liste des auteurs (le texte de la liste présente des caractéristiques très différentes par rapport au 35 reste de la vidéo et apparaîtra comme un plan particulier) ou qui peut être regroupé avec des précédents au sein d'un groupe déjà existant. Le traitement de la vidéo peut également être effectué sur des images déjà enregistrées comme par exemple dans le cas d'une base de données de films vidéo pour lesquels on cherche à 5 réaliser des résumés qui permettent une indexation et/ou recherche plus simple dans la base de données. This processing of the video can be done in real time or directly, that is to say as and when shooting the video film. However, in this case, the summary can be considered complete only when the shooting ends because the last images of a shot can form a particular shot that is particularly significant on its own, for example a generic with a list of authors (the text of the list has characteristics very different from the rest of the video and will appear as a particular plan) or which can be grouped with precedents within an already existing group. The processing of the video can also be carried out on already recorded images, for example in the case of a database of video films for which it is desired to produce summaries which allow indexing and / or simpler search in the database.

De préférence, les étapes indiquées sont effectuées dans des circuits programmables, notamment micro-ordinateur ou équipement informatique dédié et on a représenté sur la Figure 2 10 un exemple de mise en oeuvre de l'invention avec des moyens informatiques. Une caméra vidéo 13 effectue une prise de vue qui est transmise sous forme de données vidéo 1 vers un microordinateur 14 permettant d'effectuer les opérations en relation avec l'invention. La liaison directe entre la caméra 13 et le micro15 ordinateur permet un traitement en direct du flux vidéo 1 qui y est également stocké. On a toutefois représenté en pointillés une liaison vidéo 1' entre la caméra 13 et un moyen de stockage 16 du flux vidéo pour sa première partie et entre le moyen de stockage 16 et le microordinateur 14 pour sa deuxième partie, afin de 20 montrer que l'invention peut également s'appliquer à de la vidéo pré-enregistrée. Le moyen de stockage 16 est représenté sous forme d'un serveur mais il est également possible d'utiliser des moyens de stockage analogiques. Toutefois on comprend bien que le traitement automatisé des vidéos est effectué dans un 25 équipement mettant en oeuvre des calculs logiques/numériques, notamment micro-processeur ou processeur de signaux numériques (DSP), et que si un signal vidéo analogique est transmis, une conversion analogique numérique est effectuée avant le traitement automatisé. De préférence, le flux vidéo est un 30 flux de données numériques. On comprend bien également que le terme micro-ordinateur peut couvrir tout équipement informatique compatible et éventuellement dédié de type station de travail graphique. En alternative, le micro-ordinateur peut être remplacé par un circuit câblé spécialement réalisé pour effectuer les 35 opérations en relation avec l'invention. Le circuit câblé (un ou plusieurs circuits intégrés) peut éventuellement être disposé sur une carte électronique au sein d'un micro-ordinateur. Enfin, les données vidéo brutes conduisant à un flux de données particulièrement important, l'invention peut également fonctionner 5 sur des données vidéo compressées, soit que les images soient décompressées lors du traitement, soit que le traitement soit adapté au type de compression utilisé. En particulier certains systèmes de compression permettent de supprimer les données redondantes dans une image et une faible quantité de données 10 apporte une information sur l'homogénéité ou la complexité de ladite image, ce qui peut également permettre la sélection des plans. Preferably, the steps indicated are carried out in programmable circuits, in particular microcomputer or dedicated computer equipment, and FIG. 2 shows an example of implementation of the invention with computer means. A video camera 13 takes a picture that is transmitted as video data 1 to a microcomputer 14 for performing the operations in connection with the invention. The direct link between the camera 13 and the micro-computer allows a live processing of the video stream 1 which is also stored there. However, a video link 1 'between the camera 13 and a storage means 16 for the video stream for its first part and between the storage means 16 and the microcomputer 14 for its second part has been shown in dashed lines in order to show that the invention can also be applied to pre-recorded video. The storage means 16 is represented in the form of a server but it is also possible to use analog storage means. However, it is understood that the automated video processing is performed in a device implementing logic / digital calculations, in particular microprocessor or digital signal processor (DSP), and that if an analog video signal is transmitted, a conversion Digital analog is performed before the automated processing. Preferably, the video stream is a digital data stream. It is also understood that the term microcomputer can cover any compatible computer equipment and possibly dedicated graphics workstation type. Alternatively, the microcomputer may be replaced by a wired circuit specially made for performing the operations in connection with the invention. The wired circuit (one or more integrated circuits) may optionally be disposed on an electronic card within a microcomputer. Finally, the raw video data leading to a particularly large data stream, the invention can also operate on compressed video data, whether the images are decompressed during processing, or that the processing is adapted to the type of compression used. In particular, certain compression systems make it possible to eliminate the redundant data in an image and a small amount of data provides information on the homogeneity or complexity of said image, which may also allow the selection of the plans.

Pour le traitement automatisé, on a donc initialement recherché des plans Pi par analyse de signature sur les images de 15 la vidéo puis on a effectué un regroupement des plans en groupes de plans comme le montre la Figure 3 avec un exemple de segmentation/regroupement et sélection dans un film vidéo. Ce regroupement est effectué par analyse de données sur des paramètres des images et classement en fonction de distance 20 statistique. La vidéo 17 a été découpée en plans Pl... P18 et un processus de regroupement de plans est entamé en quatre étapes 18, 19, 20 et 21. A l'étape 18, un premier regroupement est obtenu entre les plans PI... P6. Le processus de regroupement se poursuivant, à l'étape 19, le plan P7 est regroupé avec les plans 25 P5 et P6 qui font déjà partie du précédent regroupement de l'étape 18. Il en résulte un regroupement global entre les plans PI à P7. For the automated processing, Pi planes were then initially searched by signature analysis on the video images and then the planes were grouped into groups of planes as shown in Figure 3 with an example of segmentation / grouping and selection in a video film. This grouping is performed by analyzing data on image parameters and ranking according to statistical distance. The video 17 has been cut into Pl ... P18 planes and a grouping process of plans is started in four stages 18, 19, 20 and 21. In step 18, a first grouping is obtained between the plans PI. P6. With the clustering process continuing, at step 19, the P7 plane is grouped with the plans P5 and P6 which are already part of the previous grouping of the step 18. This results in an overall grouping between the plans PI to P7 .

Les étapes suivantes sont explicites sur la Figure 3 et à l'étape 21 on obtient finalement quatre groupes de plans GI, G2, G3, G4 avec Gl={Pl, P2, P3, P4, P5, P6, P7}, G2={P8}, G3={P9, P10, 30 Pli, P12, P13, P14, P15}, G4={P16, P17, P18}. On constate qu'un groupe de plans correspond au regroupement de plans qui peuvent être séparés temporellement au sein du film et donc que le groupe de plans comporte un entrelacement temporel de plan. The following steps are explicit in FIG. 3 and in step 21, finally four groups of planes GI, G2, G3, G4 are obtained with Gl = {P1, P2, P3, P4, P5, P6, P7}, G2 = {P8}, G3 = {P9, P10, P11, P12, P13, P14, P15}, G4 = {P16, P17, P18}. It can be seen that a group of planes corresponds to the grouping of plans that can be separated temporally within the film and therefore that the group of planes comprises a temporal interleaving of plane.

A partir de ces groupes de plans, une détection et sélection 35 de scènes est effectuée pour aboutir au résumé vidéo 22 dont les portions correspondant à G2 et G4 ne sont pas gardées et dont la durée réelle résulte de la somme des durées de Gi et de G3. En alternative non représentée, le résumé peut être réduit à quelques images, notamment images clés, au lieu de plans. On constate 5 qu'une scène résulte de la réunion de plans provenant d'au moins un groupe de plan et que ces plans sont contigus entre eux et qu'il n'y a pas d'entrelacement temporel de plans dans une scène contrairement à un groupe de plans. From these groups of shots, detection and selection of scenes is carried out to arrive at the video summary 22 whose portions corresponding to G2 and G4 are not kept and the actual duration of which results from the sum of the durations of Gi and G3. In alternative not shown, the summary can be reduced to a few images, including keyframes, instead of plans. It can be seen that a scene results from the meeting of shots from at least one shot group and that these shots are contiguous with each other and that there is no temporal interlacing of shots in a scene as opposed to a group of shots.

Afin de pouvoir détecter des scènes dans le film vidéo on 10 considère celui-ci comme une suite d'images identifiées par des numéros d'images exclusifs les uns des autres et séquentiels par rapport au temps. Comme on l'a vu, le film peut être décomposé en plans qui sont identifiés par des numéros de plans exclusifs et séquentiels par rapport au temps. Enfin, comme également vu, des 15 plans présentant des caractéristiques semblables peuvent être regroupés au sein de groupes de plans identifiés par des numéros de groupes de plans exclusifs, les plans étant entrelacés temporellement entre différents groupes de plans. A la limite, si un film commence par un générique et se termine par un générique, 20 un groupe de plan peut associer le premier et le dernier plan de la vidéo, d'autres groupes de plans correspondant à des associations de plans présentant d'autres caractéristiques, par exemple un groupe de plans pour des paysages, un autre pour des gros plans de visage, un autre pour des vues d'intérieur, etc. Afin d'effectuer la détection de scène et de cette description, on utilise le terme " cluster" (amas ou regroupement) ou le terme structure de plan d'une manière équivalente, noté Ci, pour définirdes données en relation avec un groupe de plans, ledit " cluster" ou ladite structure de plans se rapportant donc à une énumération 30 de données concernant un/des plans d'un groupe de plans. On caractérise le film vidéo par une liste C de "clusters", chacun des "clusters" étant exclusif des autres (un même plan ne pouvant se retrouver dans plusieurs " clusters "). La liste C de "clusters" C, est définie par l'association de " clusters": Ci = (n,,d,,f,,{(e,1P,),k < j < 1,Pj e Cm, Vm É i}) avec - Pj le plan numéro j - e. le numéro de la scène à laquelle appartient P. (initialement nul); - ni le nombre d'images clés contenues dans C, - d,jf les numéros de la première et dernière image de C,. In order to be able to detect scenes in the video film, it is considered as a sequence of images identified by image numbers exclusive of each other and sequential with respect to time. As we have seen, the film can be broken down into shots that are identified by exclusive and sequential shot numbers with respect to time. Finally, as also seen, planes with similar characteristics can be grouped into groups of planes identified by exclusive plan group numbers, the planes being interleaved temporally between different groups of planes. At the limit, if a movie starts with a credits and ends with a credits, 20 a clip group can associate the first and the last clip of the video, other clip groups corresponding to clip combinations showing other features, for example a group of shots for landscapes, another for close-ups of a face, another for interior views, etc. In order to perform the scene detection and this description, the term "cluster" (cluster or cluster) or the term "plane structure" is used in an equivalent manner, denoted Ci, to define data in relation to a group of plans. , said "cluster" or said plan structure thus referring to an enumeration of data relating to one or more plans of a group of plans. The video film is characterized by a list C of "clusters", each of the "clusters" being exclusive of the others (the same plan can not be found in several "clusters"). The list C of "clusters" C, is defined by the association of "clusters": Ci = (n ,, d ,, f ,, {(e, 1P,), k <j <1, Pj e Cm, Vm É i}) with - Pj the plane number j - e. the number of the scene to which P. belongs (initially zero); - nor the number of keyframes contained in C, - d, jf the numbers of the first and last image of C ,.

On définit également une scène Ae = (e, se, Des Fe, Ne) par les paramètres suivants: - un numéro de scène e; - un scalaire Se traduisant l'importance de la scène de numéro 10 e; - De, Fe les numéros de la première et dernière image de la scène; - Ne un nombre d'images clés contenues dans la scène de numéro e. We also define a scene Ae = (e, se, Des Fe, Ne) by the following parameters: - a scene number e; - a scalar Translating the importance of the scene number 10 e; - De, Fe the numbers of the first and last image of the scene; - Do a number of keyframes contained in the e number scene.

Le film vidéo peut ainsi également être caractérisée par une liste A de scènes Ae. The video film can thus also be characterized by a list A of scenes Ae.

Afin d'obtenir une sélection de N scènes dans la liste A (N supérieur à zéro et inférieur au nombre de scènes détectées dans la vidéo) et qui sont les plus significatives de la vidéo selon la 20 méthode utilisée, on effectue les opérations suivantes dans un automate câblé ou programmé. In order to obtain a selection of N scenes in the list A (N greater than zero and less than the number of scenes detected in the video) and which are the most significant of the video according to the method used, the following operations are performed in a wired or programmed controller.

La liste C des "clusters" Ci est d'abord triée temporellement, par ordre croissant, en comparant le numéro de première image de chaque "cluster". Cette liste C est ensuite 25 parcourue par ordre croissant et on effectue les opérations qui suivent d'une manière itérative: Pour chaque "cluster" C, traité qui devient lors de chaque itération le " cluster " courant, si son premier plan Pk n'a pas encore été étiqueté comme appartenant à une scène, alors une 30 nouvelle scène numéro e est créée dans la liste A des scènes et le numéro de scène e est affecté à ce premier plan Pk et à tous ceux du film (et non pas seulement ceux du " cluster ") compris entre le premier Pk et le dernier Pl plan du "cluster" courant. The list C of the "clusters" Ci is first sorted temporally, in ascending order, by comparing the first image number of each "cluster". This list C is then traversed in ascending order and the following operations are carried out in an iterative manner: For each "cluster" C, which becomes, during each iteration, the current "cluster", if its first plane Pk n ' has not yet been labeled as belonging to a scene, then a new scene number e is created in the scene list A and the scene number e is assigned to this first plane Pk and to all those of the movie (and not only those of the "cluster") between the first Pk and the last Pl plane of the current "cluster".

Parallèlement, les informations nécessaires au calcul du paramètre 35 d'importance, qui peut également être considéré comme un paramètre de pertinence, de la scène sont incrémentés. Quand tous les "clusters" C, de la liste C ont été traités, un filtrage suivant le paramètre d'importance de scène est réalisé afin de ne conserver que les plus importants. In parallel, the information needed to calculate the parameter of importance, which can also be considered as a parameter of relevance, of the scene is incremented. When all the "clusters" C, of the list C have been processed, filtering according to the parameter of importance of scene is realized in order to keep only the most important ones.

Cette méthode peut être décrite sous forme algorithmique. This method can be described in algorithmic form.

Les étapes de traitement des listes de "clusters" et de scènes sont les suivantes: -1- Créer une liste A de scène vide et mettre le compteur de scènes e à zéro. The steps for processing lists of "clusters" and scenes are as follows: -1- Create an empty scene list A and set the scene counter e to zero.

-2- Si la liste C de "clusters" C, n'est pas encore triée alors la trier par ordre croissant (C, < C <:>d, <dé). -2- If the list C of "clusters" C, is not yet sorted then sort it in ascending order (C, <C <:> d, <de).

-3- Se positionner sur le premier "cluster" la liste C de "clusters". -3- Position on the first "cluster" list C of "clusters".

-4- Si on ne trouve pas de "cluster" aller en 6, sinon traiter le "cluster" C,courant, a. Si le numéro ek du premier plan Pk du "cluster" C, est nul alors i. Si eO,se=(Fe-De)*Ne; ii. e=e+l iii. créer une nouvelle scène de numéro e, 20 iv. De = d, Fe = fi, Ne= ni v. affecter l'étiquette e aux plans {Pj,k< j<l} vi. aller en 5. -4- If we do not find a "cluster" go to 6, otherwise treat the "cluster" C, current, a. If the number ek of the first plane Pk of the "cluster" C, is zero then i. If eO, se = (Fe-De) * Ne; ii. e = e + l iii. create a new scene of number e, 20 iv. De = d, Fe = fi, Ne = ni v. assign the label e to the planes {Pj, k <j <l} vi. go to 5.

b. Si le numéro e. du dernier plan P, de C, est égal à e alors i. Ne=Ne + n, ii. aller en 5. b. If the number e. the last plane P, of C, is equal to e then i. Ne = Ne + n, ii. go to 5.

c. Sinon i. affecter l'étiquette e aux plans {P,,k<j<l} ii. F, =f, iii. N, = Ne + ni -5- Se positionner sur le "cluster" suivant de la liste et retourner en 4. c. Otherwise i. assign the label e to the planes {P ,, k <j <l} ii. F, = f, iii. N, = Ne + ni -5- Move to the next "cluster" in the list and return to 4.

-6- Si eO,se=(Fe-De)*Ne On comprend que cet exemple est indicatif et l'on peut 35 obtenir les mêmes résultats avec d'autres combinaisons de tests et d'opérations. Par exemple, en 5, on peut ajouter (ou déplacer) un test d'existence d'un cluster suivant (ou courant). If eO, se = (Fe-De) * It is understood that this example is indicative and the same results can be obtained with other combinations of tests and operations. For example, in 5, one can add (or move) an existence test of a next (or current) cluster.

Par cès opérations on a donc constitué une liste A de scènes et on a mis à jour les données de la liste de " cluster " et de la 5 liste A de scènes. On peut alors sélectionner les N scènes les plus importantes (de plus grand Se) et conserver les "clusters" associés à ces scènes sélectionnées. A ce stade, pour la réalisation d'un résumé du film vidéo, on peut soit garder une ou plusieurs images significatives, notamment des images clés, correspondantes des 10 " clusters " importants, soit une partie ou tous les plans correspondants. Through these operations, therefore, a list A of scenes has been constituted and the data of the "cluster" list and the list A of scenes have been updated. We can then select the N most important scenes (larger Se) and keep the "clusters" associated with these selected scenes. At this stage, for the realization of a summary of the video film, one can either keep one or more significant images, including key images, corresponding to the 10 "clusters" important or a part or all corresponding plans.

Afin de mieux expliciter l'algorithme précédent, on a représenté schématiquement Figure 4 les résultats d'étapes de calcul lors des itérations. Dans l'exemple représenté on est parti 15 d'une portion de film vidéo de 385 images. En haut de la Figure 4 une ligne horizontale schématise le déroulement du film au cours du temps entre sa première image, image 1 et sa dernière, image 385. In order to better explain the preceding algorithm, FIG. 4 schematically shows the results of calculation steps during the iterations. In the example shown we started with a portion of video film of 385 images. At the top of Figure 4 a horizontal line schematizes the unfolding of the film over time between its first image, image 1 and its last image 385.

Dans la phase de préparation, le film a été découpé en plans 20 Pl à P8, chaque plan comprenant au moins une image clé notée Ki, soit pour le premier plan Pi, Ki et K2 deux images clés, pour le deuxième plan P2, K3 une image clé, etc. Un regroupement des plans a également été effectué en groupes de plans pour former des " clusters " notés Ci. Sur la Figure 4 il y a trois " clusters ": 25 le premier " cluster " Cl regroupe les plans Pi, P3, P5; le deuxième " cluster " C2 regroupe les plans P2, P6, P8 et le troisième " cluster " C3 regroupe les plans P4, P7. Finalement, la liste des " clusters " a été triée par ordre croissant, ce qui correspond à la représentation de la ligne initialisation sur la 30 Figure 4 o chaque plan est représenté sous forme d'un cadre contenant des données correspondant à son numéro de plan, son " cluster " et son/ses images clés, soit, pour le dernier plan, P8 (huitième plan), C2 (deuxième " cluster "), K11(image clé numéro onze) respectivement. On a également représenté la valeur du compteur de scène e au dessus de chaque plan et qui est initialement mis à zéro. In the preparation phase, the film has been cut into planes P1 to P8, each plane comprising at least one keyframe denoted by Ki, ie for the first plane P1, K1 and K2 two keyframes, for the second plane P2, K3. a keyframe, etc. A grouping of the plans has also been done in groups of plans to form "clusters" denoted Ci. In Figure 4 there are three "clusters": the first "cluster" Cl groups the plans Pi, P3, P5; the second "cluster" C2 groups plans P2, P6, P8 and the third "cluster" C3 combines plans P4, P7. Finally, the list of "clusters" was sorted in ascending order, which corresponds to the representation of the initialization line on Figure 4 where each plane is represented as a frame containing data corresponding to its plan number. , his "cluster" and his / her keyframes, that is, for the last plane, P8 (eighth plane), C2 (second "cluster"), K11 (keyframe number eleven) respectively. The value of the scene counter e above each plane, which is initially set to zero, is also represented.

Dans la phase de détection de scènes, on réalise le processus itératif précédemment détaillé. Avec les données de la 5 Figure 4, la première itération utilisant le premier cluster, Cl, aboutit à la ligne nommée étape 4.a qui correspond à la partie de l'algorithme qui a été exécutée (le numéro de scène du premier plan Pi du " cluster " courant, Cl, était nul car mis à zéro initialement). Il en résulte qu'une scène à été crée, scène numéro 10 1, et que tous les plans (pas seulement ceux de Cl) entre Pl et P5 ont été affectés à cette scène car C1=(PI, P3, P5). Les valeurs associées de première (De=l) et dernière (Fe=125) images de la scène (e=1) ainsi que le nombre d'images clés (Ne=5 seulement à ce stade) ont également été mises à jour. In the scene detection phase, the previously detailed iterative process is carried out. With the data of Figure 4, the first iteration using the first cluster, Cl, results in the line named step 4.a which corresponds to the part of the algorithm that has been executed (the scene number of the first plane Pi the current "cluster", Cl, was zero because initially zeroed). As a result, a scene has been created, scene number 10 1, and all the clips (not only those of Cl) between Pl and P5 have been assigned to this scene because C1 = (PI, P3, P5). The associated values of first (De = 1) and last (Fe = 125) images of the scene (e = 1) as well as the number of keyframes (Ne = 5 only at this stage) have also been updated.

Après passage au " cluster " suivant, C2, la seconde itération aboutit à la ligne nommée étape 4.c qui correspond à la partie de l'algorithme qui a été exécutée (le numéro de scène du dernier plan P8 est nul dont différent de un et le numéro de scène du premier plan P2 du " cluster " courant, C2, était égal à un car 20 mis à un lors de l'itération précédente). Il en résulte que tous les plans (pas seulement ceux de C2) entre P2 et P8 ont été affectés à cette même scène car C2=(P2, P6, P8). Les valeurs associées de première (De=l, inchangée) et dernière (Fe=385) images de la scène (e=1) ainsi que le nombre d'images clés (Ne=8 seulement à 25 ce stade) ont également été mises à jour. After passing to the next "cluster", C2, the second iteration leads to the line named step 4.c which corresponds to the part of the algorithm that has been executed (the scene number of the last plane P8 is zero different from one and the scene number of the first P2 plane of the current "cluster", C2, was one because set to one during the previous iteration). As a result, all the planes (not only those of C2) between P2 and P8 were assigned to this same scene because C2 = (P2, P6, P8). The associated values of first (De = 1, unchanged) and last (Fe = 385) images of the scene (e = 1) as well as the number of keyframes (Ne = 8 only at this stage) were also set up to date.

Après passage au " cluster " suivant, C3, la troisième itération aboutit à la ligne nommée étape 4.b qui correspond à la partie de l'algorithme qui a été exécutée (le numéro de scène du dernier plan P7 est égal à un et le numéro de scène du premier 30 plan P4 du " cluster " courant, C3, était égal à un). Les valeurs associées de première (Del=, inchangée) et dernière (Fe=385, inchangée) images de la scène (e=1) ainsi que le nombre d'images clés (Ne=l 1) ont également été mises à jour. After passing to the next "cluster", C3, the third iteration leads to the line named step 4.b which corresponds to the part of the algorithm that has been executed (the scene number of the last plane P7 is equal to one and the The scene number of the first P4 plane of the current "cluster", C3, was one). The associated values of first (Del =, unchanged) and last (Fe = 385, unchanged) images of the scene (e = 1) as well as the number of keyframes (Ne = l 1) have also been updated.

Le passage au " cluster " suivant ne pouvant aboutir, tous 35 les " clusters " ayant été traités, le processus itératif s'interrompt et on aboutit à la création d'une seule scène qui comprend tous les plans entre Pl et P8 bornes comprises. On comprend que cette description de la Figure 4 est basée sur un extrait de film et que dans la réalité un film vidéo produit généralement plusieurs scènes 5 qui, grâce au calcul de paramètres d'importance, peuvent être classées par ordre d'importance. The transition to the next "cluster" can not succeed, all 35 "clusters" having been processed, the iterative process is interrupted and leads to the creation of a single scene that includes all planes between Pl and P8 terminals included. It will be understood that this description of Figure 4 is based on a movie clip and that in reality a video film generally produces several scenes which, through the calculation of importance parameters, can be ranked in order of importance.

La méthode décrite a été implémentée dans un démonstrateur de type informatique (micro-ordinateur) et testé avec succès sur des bases de données vidéo hétérogènes 10 comportant des films, des documentaires, des émissions, des publicités et possédant des durées comprises entre 3 minutes et 2 heures. Par exemple une des vidéos traitées est un documentaire de cinq minutes qui a été découpé en 40 plans. Au cours des étapes de traitement on a pu vérifier visuellement, notamment, le 15 résultat du classement (" clustering ") dans lequel des plans caractérisés par des images-clés appartenant au même groupe de plans ou "cluster" sont regroupés ainsi que le résultat du regroupement en scènes avec filtrage afin de ne conserver qu'un nombre limité de portions les plus importantes de la vidéo, dans 20 cet exemple N=5. The described method has been implemented in a computer-based demonstrator (microcomputer) and successfully tested on heterogeneous video databases comprising films, documentaries, programs, commercials and having durations of between 3 minutes and 5 minutes. 2 hours. For example one of the videos processed is a five-minute documentary that has been cut into 40 shots. During the processing steps it was possible to visually verify, in particular, the clustering result in which plans characterized by keyframes belonging to the same group of plans or cluster are grouped as well as the result. grouping into filtered scenes in order to keep only a limited number of the most important portions of the video, in this example N = 5.

Dans la description, deux listes, une de " clusters " et une de scènes, sont mises en oeuvre pour les calculs. On peut cependant mettre en oeuvre l'invention avec une seule liste regroupant les données nécessaires ou avec plus de deux listes. In the description, two lists, one of "clusters" and one of scenes, are implemented for the calculations. However, the invention can be implemented with a single list containing the necessary data or with more than two lists.

On comprend à la description qui précède que l'invention s'applique à tout type de vidéo quant à son contenu et qu'elle peut être optimisée par une sélection dans une base de données de critères, des critères de segmentation en plans et d'extraction des images clés en fonction d'une analyse grossière préalable du 30 contenu des images, notamment entre des prises de vue extérieures ou intérieures (présence d'un ciel, de végétation, d'eau... détectés en fonction de la couleur, de l'homogénéité ou non des tons par exemple, présence d'un visage... ). It will be understood from the foregoing description that the invention applies to all types of video as to its content and that it can be optimized by a selection in a database of criteria, criteria of segmentation in planes and of extracting the keyframes according to a preliminary rough analysis of the contents of the images, in particular between external or internal shots (presence of a sky, vegetation, water ... detected according to the color, homogeneity or not of tones for example, presence of a face ...).

Claims

REVENDICATIONS

1. Procédé d'obtention de scènes caractéristiques d'une vidéo formée d'une succession d'images et comportant des étapes de: - décomposition préalable de la vidéo en plans comportant chacun un certain nombre d'images de la vidéo, à chaque plan étant associé au moins un attribut, - regroupement des plans présentant des similarités dudit 10 attribut en groupes de plans, ledit procédé étant caractérisé en ce qu'il comporte les étapes de - tri temporel de la liste des groupes de plans, - parcours de ladite liste et, pour chaque groupe de plans de la vidéo, si le premier plan dudit groupe n'a pas encore été 15 étiqueté comme appartenant à une scène, création d'une nouvelle scène en lui attribuant un numéro et affectation du numéro de cette scène à ce plan, - affectation dudit numéro de ladite scène à tous les plans du groupe de plans. 1. A method for obtaining characteristic scenes of a video formed by a succession of images and comprising steps of: - preliminary decomposition of the video into shots each comprising a certain number of images of the video, at each plane being associated with at least one attribute, - grouping of the planes having similarities of said attribute in groups of planes, said method being characterized in that it comprises the steps of: - time-sorting of the list of groups of planes, - course of said list and, for each group of shots of the video, if the foreground of said group has not yet been labeled as belonging to a scene, creating a new scene by assigning a number and assigning the number of that scene at this plane, - assigning said number of said scene to all the plans of the group of plans.

2. Procédé selon la revendication 1, caractérisé en ce que l'étape de décomposition comporte: - une phase de segmentation de la vidéo avec détermination d'un ensemble ordonné de plans distincts successifs identifiés par des numéros de plans Pj, les images appartenant à chaque plan se 25 distinguant des autres images des autres plans selon un ensemble de critères de segmentation, et - une phase d'extraction d'attribut avec détermination pour chaque plan Pj d'un ensemble de ni images clés, ni ≥1, selon un ensemble de critères d'extraction, et en ce que l'étape de regroupement s'effectue en regroupant des plans pour lesquels des valeurs de signature d'image(s) clé(s) sont voisines selon un critère de distance en analyse de données, chaque groupe de plans étant identifié par un numéro de groupe de plans. 2. Method according to claim 1, characterized in that the decomposition step comprises: a phase of segmentation of the video with determination of an ordered set of successive distinct planes identified by plane numbers Pj, the images belonging to each plane distinguishing itself from the other images of the other planes according to a set of segmentation criteria, and - an attribute extraction phase with determination for each plane Pj of a set of neither keyframes, nor ≥1, according to a set of extraction criteria, and in that the grouping step is carried out by grouping plans for which key image signature values are similar according to a distance criterion in data analysis. , each group of plans being identified by a group number of plans.

3. Procédé selon la revendication 2, caractérisé en ce que lors de l'étape de parcours on calcule en outre pour chaque scène un scalaire se d'importance de scène égal au produit du nombre d'images du groupe de plans par le nombre d'images clés dans le groupe de plans. 3. Method according to claim 2, characterized in that during the step of the course is further calculated for each scene a scalar of scene importance equal to the product of the number of images of the group of plans by the number of keyframes in the group of plans.

4. Procédé selon la revendication 3, caractérisé en ce qu'il comporte les phases suivantes: - on crée une liste C de structures Ci de plans, chaque structure Ci =(ndi,,f,,{(ej Pj),k<j<l,Pj XCm,VmÉiJ) correspondant à un 10 groupe de plans et associant un nombre ni d'images clés contenues dans le groupe, di étant le numéro de la première image dans le groupe et fi étant le numéro de la dernière image dans le groupe ainsi que, pour chaque plan Pj, un numéro de scène ej initialement mis à zéro, - on crée une liste A de structures Ae de scènes, chaque structure Ae = (e, se, Ne, De, Fe) permettant d'associer à chaque numéro de scène e, le scalaire se d'importance de scène, des numéros d'images de début De et fin Fe de scène et un nombre Ne d'images clés contenues dans la scène, la liste A étant initialement vide, - les structures de la liste C étant classées temporellement en fonction des numéros d'images de début di de chaque structure par ordre croissant lors de l'étape de tri temporel, - une variable de numéro de scène e est initialisé à zéro, - après positionnement sur la première structure de plan Ci de la 25 liste C, la liste C classée est balayée depuis l'origine par ordre croissant en effectuant, successivement, sur chaque structure Ci courante les opérations suivantes: (a) si le numéro de scène ek du premier plan Pk de la structure Ci courante est nul alors: (i) si la valeur courante de e est différente de zéro, on calcule et affecte la valeur (Fe-De)*Ne à se pour la structure Ae de scène, (ii) la variable de numéro de scène e est incrémentée de un, soit e=e+1, (iii) une structure de scène Ae est créée dans la liste A et on affecte la valeur e à ee, la valeur di à De, la valeur fi à Fe, la valeur ni à Ne, (iv) la valeur e est affectée aux numéros de scènes ej 5 des plans Pj du film dont le numéro est compris entre le numéro du premier plan de la structure courante et le numéro du dernier plan de la structure courante, premier et dernier compris, soit pour les plans tPj,k < j < }, (v) passage à l'opération (d), (b) si le numéro de scène el du dernier plan Pl de la structure Ci courante est égal à e alors: (i) la valeur ni est ajoutée à Ne pour la structure Ae de scène, (ii) passage à l'opération (d), (c) sinon: (i) la valeur e est affectée aux numéros de scènes ej des plans Pj de la structure Ci en cours d'opération, (ii) la valeur fi est affectée à Fe et la valeur ni est 20 ajoutée à Ne pour la structure Ae de scène, (d) si il y a une structure Ci de plans suivante, prise en compte de ladite structure Ci de plans suivante qui devient structure Ci courante et passage à l'opération (a), (e) si la valeur courante de e est différente de zéro, on 25 calcule et affecte la valeur (Fe-De)*Ne à se pour la structure Ae de scène. 4. Method according to claim 3, characterized in that it comprises the following phases: - a list C of structures Ci of planes is created, each structure Ci = (ndi ,, f ,, {(ej Pj), k < j <l, Pj XCm, VmEiJ) corresponding to a group of planes and associating a number of keyframes contained in the group, di being the number of the first image in the group and fi being the number of the last image in the group as well as, for each plane Pj, a scene number ej initially set to zero, - one creates a list A of structures Ae of scenes, each structure Ae = (e, se, Ne, De, Fe) allowing to associate with each scene number e, the scalar is of importance of scene, numbers of images of beginning of De and end Fe of scene and a number Ne of keyframes contained in the scene, the list A being initially empty - the structures of the list C being classified temporally according to the numbers of images of beginning di of each structure in ascending order l in the time sorting step, a scene number variable e is initialized to zero, after positioning on the first plane structure Ci of the list C, the ordered list C is scanned from the origin by order increasing by successively performing on each current structure Ci the following operations: (a) if the scene number ek of the first plane Pk of the current structure Ci is zero then: (i) if the current value of e is different from zero , one calculates and assigns the value (Fe-De) * Ne to se for the structure Ae of scene, (ii) the variable of number of scene e is incremented by one, ie e = e + 1, (iii) a structure Ae is created in the list A and we assign the value e to ee, the value di to De, the value fi to Fe, the value ni to Ne, (iv) the value e is assigned to the scene numbers ej 5 clips Pj of the film whose number is between the number of the first plane of the current structure and the number of the last plane of the current structure, first and last included, for the planes tPj, k <j <}, (v) transition to operation (d), (b) if the scene number el of the last plane Pl of the structure Ci current is equal to e then: (i) the value ni is added to Ne for the structure Ae of scene, (ii) transition to operation (d), (c) otherwise: (i) the value e is assigned to scene numbers ej of the planes Pj of the structure Ci during operation, (ii) the value fi is assigned to Fe and the value ni is added to Ne for the structure Ae of scene, (d) if there is a following structure Ci of planes, taken into account of said following structure Ci of planes which becomes current structure Ci and transition to the operation (a), (e) if the current value of e is different from zero, is calculated and assigns the value (Fe-De) * Ne to se for the scene Ae structure.

5. Procédé selon la revendication 4, caractérisé en ce que les opérations (a)(i) et (e) sont omises et on effectue en outre une étape supplémentaire dans laquelle on balaye la liste A de scènes 30 et pour chaque structure Ae de scène on calcule et affecte la valeur (Fe-De)*Ne à se. 5. Method according to claim 4, characterized in that the operations (a) (i) and (e) are omitted and an additional step is carried out in which the list A of scenes 30 is scanned and for each structure Ae of scene one calculates and assigns the value (Fe-De) * Ne to se.

6. Procédé selon la revendication 5, caractérisé en ce qu'en outre dans la structure Ci de plans on associe à chaque plan Pi une liste de son/ses images clés Ki. 6. Method according to claim 5, characterized in that further in the structure Ci of planes is associated with each plane Pi a list of his / her key images Ki.

7. Procédé selon l'une quelconque des revendications 3 à 6, caractérisé en ce qu'il comporte en outre une étape de sélection de scènes dans laquelle on garde les scènes (Ae) pour lesquelles le scalaire se d'importance de scène est supérieur à une valeur déterminée. 7. Method according to any one of claims 3 to 6, characterized in that it further comprises a scene selection step in which one keeps the scenes (Ae) for which the scalar is of scene importance is greater at a fixed value.

8. Procédé selon l'une quelconque des revendications 3 à 6, caractérisé en ce qu'il comporte en outre une étape de sélection de scènes dans laquelle on garde les k scènes ayant les plus grandes valeurs de scalaire se d'importance de scène, k étant un 10 entier positif non nul inférieur au nombre total de scènes. 8. Method according to any one of claims 3 to 6, characterized in that it further comprises a scene selection step in which the k scenes having the largest scalar values are kept of scene importance, k being a nonzero positive integer less than the total number of scenes.

9. Procédé selon la revendication 7 ou 8, caractérisé en ce qu'en outre, après l'étape de sélection, on récupère à partir de la liste C de structures Ci de plans, les plans correspondants aux scènes sélectionnées pour les assembler en un résumé de la vidéo 15 sous forme d'une suite de plans. 9. A method according to claim 7 or 8, characterized in that, furthermore, after the selection step, from the list C of structures Ci of planes, the planes corresponding to the scenes selected for assembling them in one are recovered. summary of video 15 as a series of shots.

10. Procédé selon la revendication 7 ou 8, caractérisé en ce qu'en outre, dans le cas o l'on associe à chaque plan Pi une liste d'images clés Ki dans la structure Ci de plans, après l'étape de sélection, on récupère à partir de la liste C de structures Ci de 20 plans, les images clés Ki des plans correspondants aux scènes sélectionnées pour les assembler en un résumé de la vidéo sous forme d'une suite d'images clés. 10. The method of claim 7 or 8, characterized in that in addition, in the case where is associated with each Pi plane a list of keyframes Ki in the structure Ci of plans, after the selection step from the list C of structures Ci of 20 shots, the keyframes Ki are retrieved from the planes corresponding to the scenes selected to assemble them into a summary of the video in the form of a series of keyframes.

11. Procédé selon la revendication 9, respectivement 10, caractérisé en ce que pour former le résumé on n'utilise qu'une 25 partie des images résultant de la sélection et que l'on assemble une partie des images des plans de chaque structure Ci de plans, de préférence des images médianes de chaque plan, respectivement une partie des images clés de chaque structure Ci de plans, de préférence au moins l'image clé médiane, pour former 30 le résumé. 11. A method according to claim 9, respectively 10, characterized in that to form the summary is used only part of the images resulting from the selection and that is assembled a portion of the images of the plans of each structure Ci of planes, preferably median images of each plane, respectively a part of the keyframes of each structure Ci of planes, preferably at least the median keyframe, to form the summary.

12. Dispositif pour mise en oeuvre d'un procédé d'obtention de scènes caractéristiques d'une vidéo formée d'une succession d'images, le dispositif comportant des moyens permettant d'effectuer les étapes suivantes: - décomposition préalable de la vidéo en plans comportant chacun un certain nombre d'images de la vidéo, à chaque plan étant associé au moins un attribut, - regroupement des plans présentant des similarités dudit attribut en groupes de plans, ledit dispositif étant caractérisé en ce qu'il comporte en outre des moyens permettant de réaliser les étapes suivantes - tri temporel de la liste des groupes de plans, - parcours de ladite liste et, pour chaque groupe de plans de 10 la vidéo, si le premier plan dudit groupe n'a pas encore été étiqueté comme appartenant à une scène, création d'une nouvelle scène en lui attribuant un numéro et affectation du numéro de cette scène à ce plan, - affectation dudit numéro de ladite scène à tous les plans du 15 groupe de plans. 12. Device for implementing a method for obtaining characteristic scenes of a video formed of a succession of images, the device comprising means for performing the following steps: - preliminary decomposition of the video in planes each including a certain number of images of the video, with each plane being associated with at least one attribute, - grouping of the planes having similarities of said attribute in groups of planes, said device being characterized in that it further comprises means for performing the following steps - time sorting of the list of groups of shots, - running of said list and, for each group of shots of the video, if the first shot of said group has not yet been labeled as belonging to a scene, creating a new scene by assigning a number and assigning the number of this scene to this plane, - assigning said number of said scene to all the planes of the 15 group of shots.

13. Produit programme d'ordinateur caractérisé en ce qu'il comprend des instructions de code de programme aptes à mettre en oeuvre le procédé de la revendication 1 lorsque le programme est exécuté dans un circuit électronique programmable. 20 13. Computer program product characterized in that it comprises program code instructions adapted to implement the method of claim 1 when the program is executed in a programmable electronic circuit. 20