FR2978318A1

FR2978318A1 - Procede et dispositif d'optimisation du positionnement d'une fenetre d'incrustation d'un objet sur une sequence d'images stereoscopiques

Info

Publication number: FR2978318A1
Application number: FR1157778A
Authority: FR
Inventors: Roger Samy
Original assignee: Sagemcom Broadband SAS
Current assignee: Sagemcom Broadband SAS
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2013-01-25

Abstract

La présente invention concerne un procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques, une demi-image gauche (I (i,j)) et une demi-image droite (Id(i,j)) étant obtenues à partir de chaque image stéréoscopique, caractérisé en ce qu'il comporte les étapes suivantes: - obtenir une carte de disparité relative à chaque image stéréoscopique, - sélectionner une fenêtre d'incrustation de l'objet parmi un ensemble de fenêtres candidates, ladite fenêtre d'incrustation étant celle dont la disparité moyenne, obtenue à partir de la carte de disparité, est minimale, et - définir une fenêtre (PIP(i,j,t)) de la demi-image gauche (I ) de l'image stéréoscopique dans laquelle l'image gauche de l'objet est incrustée comme étant la fenêtre d'incrustation sélectionnée et une fenêtre (PIP(i+OFFSET,j,t)) de la demi-image droite (I ) dans laquelle l'image droite de l'objet est incrustée comme étant la fenêtre d'incrustation sélectionnée décalée horizontalement d'une valeur de décalage (OFFSET) égale à la disparité moyenne de cette fenêtre d'incrustation sélectionnée.

Description

La présente invention concerne un procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques. Une séquence d'images stéréoscopiques, encore appelée vidéo 3D, procure à un utilisateur un effet de profondeur des objets d'une scène lorsque les images de cette séquence sont visualisées sur un écran de visualisation. Cet effet stéréoscopique peut être obtenu à partir de deux images, dites gauche et droite. Ces images droite et gauche sont acquises par deux caméras qui sont spatialement décalées l'une de l'autre de quelques centimètres pour recréer l'effet stéréoscopique de la vision humaine.

Une vidéo 3D peut être codée selon la norme MPEG4/H264 et être haute définition (résolution 1920x1080). On parle alors de vidéo 3D 1080i. Une vidéo 3D peut être diffusée par satellite, câble ou encore par ADSL selon une chaîne de diffusion représentée schématiquement par la Fig. 1. Cette chaîne de diffusion comporte un codeur COD, un canal de diffusion C et un décodeur DEC qui est relié via, par exemple, un lien conforme à une norme HDMI, à un écran de visualisation 3DTV prévu pour visualiser des vidéos 3D. Différentes technologies de visualisation de séquences d'images stéréoscopiques existent. Certaines obligent l'utilisateur à chausser une paire de lunettes obturantes et actives pour recréer l'effet stéréoscopique des objets de la scène lorsque l'image droite et l'image gauche relatives à chaque image stéréoscopique sont visualisées sur cet écran par alternance. D'autres technologies évitent l'usage de ces lunettes en recréant l'effet stéréoscopique directement à partir d'une image et de sa carte de disparité. Le codeur COD comporte un codeur COD3D de vidéo 3D et, éventuellement, un codeur COD2D de vidéo 2D. Une vidéo est dite 2D pour faire référence à une vidéo classiquement acquise par une caméra. Le codeur COD comporte éventuellement un codeur de texte CODT pour, par exemple, coder des sous-titres à incruster sur la vidéo 3D, et/ou un codeur CODINFO qui donne des informations de signalisation sur les données envoyées. Le codeur COD comporte également un multiplexeur qui forme un flux vidéo, 30 par exemple de type DVB (Digital Video Broadcast en anglais). Une vidéo 3D est encodée par le codeur COD3D pour que le flux résultant puisse être diffusé dans un canal de diffusion C. A cet effet, le codeur COD3D formate la vidéo 3D dans un format dit composite.

Ce format composite peut regrouper soit les informations utiles d'une image et de sa carte de disparité, soit les informations utiles des images gauche et droite relatives à une même image stéréoscopique tel que illustré à la Fig. 2. Dans ce dernier, l'image droite et l'image gauche pleine résolution qui sont relatives à une même image de la vidéo 3D sont chacune sous-échantillonnées pour obtenir deux images Id et Ig habituellement appelées demi-images car le taux d'échantillonnage est égal à 2. Ce sous-échantillonnage est, le plus souvent, précédé d'un filtrage passe-bas de ces images pour éviter des problèmes d'anti-aliasing qui pourraient se manifester sur les contours et textures qui renferment des hautes fréquences et qui affecteraient la qualité visuelle de ces images lors de leur visualisation. Ces deux demi-images ainsi sous-échantillonnées sont alors combinées entre elles pour obtenir une image composite pleine résolution, image qui est alors diffusée comme le serait une image d'une vidéo 2D et ce afin d'utiliser un canal de diffusion dont la bande passante n'excède pas celle classiquement utilisée pour la diffusion d'une vidéo 2D. Plusieurs formats composites sont couramment utilisés pour la diffusion des images gauche et droite. L'un de ces formats, qui est habituellement appelé côte-àcôte (side-by-side en anglais), est illustré à la Fig. 2. Une image composite au format côte-à-côte est définie comme étant une image pleine résolution qui comporte la demi-image Ig dans sa partie gauche et la demi-image Id dans sa partie droite, les deux demi-images Id et Ig étant les résultats d'un sous-échantillonnage horizontal des images gauche et droite pleine résolution. Un autre format composite est appelé haut-et-bas (Top-and-Bottom en anglais).

Une image pleine résolution au format haut-et-bas est définie comme étant une image pleine résolution qui comporte la demi-image Ig dans sa partie haute et la demi-image Id dans sa partie basse, les deux demi-images Id et Ig étant alors les résultats d'un sous-échantillonnage vertical des images gauche et droite pleine résolution. D'autres formats composites sont bien évidemment possibles dans lesquels les 30 deux demi-images Ig et Id, une fois sous-échantillonnées, sont mélangées entre elles pour former une mosaïque. Le décodeur DEC est prévu pour recevoir un flux vidéo 3D formaté. Le décodeur extrait soit l'image et sa carte de disparité à partir du flux vidéo reçu, soit les deux demi-images Ig et Id de l'image composite reçue selon le format composite utilisé. Dans le premier cas, l'image stéréoscopique visualisée sur l'écran 3DTV est obtenue directement à partir de l'image et de sa carte de disparité extraites du flux vidéo reçu. Dans le dernier cas, le décodeur DEC extrapole les deux demi-images pour obtenir une image droite et une image gauche pleine résolution, images qui sont alors visualisées en alternance sur l'écran de visualisation 3DTV (Fig. 3). Certains décodeurs DEC permettent, de plus, l'incrustation d'objets dans une vidéo 3D. Cette fonction, appelée Picture in Picture (PIP) en anglais, permet d'incruster une image d'un objet sur chaque image stéréoscopique de la vidéo 3D lors de la visualisation de cette vidéo 3D sur l'écran 3DTV. La vidéo 3D est alors visualisée en plein écran alors que l'objet est visualisé dans une fenêtre d'incrustation définie sur l'image stéréoscopique à une position prédéterminée. Il est ainsi habituel qu'un objet soit incrusté en haut et à droite de l'écran, par exemple, ou encore qu'un sous-titre soit incrusté en bas et au centre de l'écran et qu'un OSD (On Screen Display en anglais) soit incrusté au centre de l'image stéréoscopique.

L'incrustation d'objets dans des fenêtres d'incrustation prédéfinies sur la vidéo 3D indépendamment du contenu de cette vidéo 3D procure des gênes visuelles pour un utilisateur si ces fenêtres d'incrustation se superposent à des objets de la vidéo 3D qui présentent un fort relief, c'est-à-dire à des objets qui captent l'attention de cet utilisateur.

Le problème résolu par la présente invention est de remédier à ces inconvénients. A cet effet, la présente invention concerne un procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques. Une image gauche et une image droite étant obtenues à partir de chaque image stéréoscopique, le procédé est caractérisé en ce qu'il comporte les étapes suivantes: - obtenir une carte de disparité relative à chaque image stéréoscopique, - sélectionner une fenêtre d'incrustation de l'objet parmi un ensemble de fenêtres candidates, ladite fenêtre d'incrustation étant celle dont la disparité moyenne, calculée à partir de la carte de disparité, est minimale, et - définir une fenêtre de l'image gauche de l'image stéréoscopique dans laquelle l'image gauche de l'objet est destinée à être incrustée, comme étant la fenêtre d'incrustation sélectionnée, et une fenêtre de l'image droite dans laquelle l'image droite de l'objet est destinée à être incrustée, comme étant la fenêtre d'incrustation sélectionnée décalée horizontalement d'une valeur de décalage égale à la disparité moyenne de cette fenêtre d'incrustation sélectionnée. Le procédé permet de tenir compte de la disparité entre images gauche et droite pour définir la position des fenêtres d'incrustation et des objets ne seront incrustés que dans des zones de l'image stéréoscopique qui ne comportent pas des objets ayant un relief important évitant ainsi les gênes visuelles occasionnées par le chevauchement des objets de la vidéo 3D à fort relief avec les objets incrustés. Selon un mode de réalisation, la carte de disparité est calculée par corrélation monodimensionnelle croisée horizontale de l'image gauche et de l'image droite.

Selon un mode de réalisation, la corrélation monodimensionnelle croisée horizontale de l'image gauche et de l'image droite est définie par le minimum entre la disparité de l'image gauche avec l'image droite et la disparité de l'image droite avec l'image gauche. Selon une variante de ce mode de réalisation, l'étape de calcul de la carte de 15 disparité est précédée d'une étape de compensation de la disparité verticale des deux images gauche et droite par corrélation verticale globale. Selon un mode de réalisation, la carte de disparité est filtrée temporellement par un filtre passe-bas de premier ordre. Selon un mode de réalisation, le filtre passe-bas n'a pas d'effet lorsqu'un 20 changement de scène est détecté dans la séquence d'images stéréoscopiques. Selon un mode de réalisation, le filtrage temporel est précédé d'une étape de compensation de mouvement des images stéréoscopiques de la séquence. Selon un mode de réalisation, dans le cas où l'objet à incruster est un texte 3D ou un OSD, cette valeur de décalage (OFFSET) est choisie entre un minimum donné 25 par la disparité moyenne (DISPMOY(t» de la fenêtre d'incrustation sélectionnée calculée à partir de la carte de similarité et un maximum, fonction de la taille de l'écran de visualisation de la séquence d'images stéréoscopiques. L'invention concerne également un programme d'ordinateur, qui peut être stocké sur un support et/ou téléchargé d'un réseau de communication, afin d'être lu 30 par un système informatique ou un processeur. Ce programme d'ordinateur comprend des instructions pour implémenter le procédé mentionné ci-dessus, lorsque ledit programme est exécuté par le système informatique ou le processeur. L'invention concerne également des moyens de stockage comprenant un tel programme d'ordinateur.

Selon ses aspects matériels, la présente invention concerne, de plus, un dispositif comportant des moyens pour mettre en oeuvre le procédé ci-dessus. Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels: La Fig. 1 représente schématiquement une chaîne de diffusion de flux vidéo. La Fig. 2 représente schématiquement la formation d'une image composite à partir des images gauche et droite d'une image stéréoscopique.

La Fig. 3 représente schématiquement l'obtention des images gauche et droite d'une image stéréoscopique à partir d'une image composite. La Fig. 4 représente un diagramme des étapes du procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques.

Les Figs. 5 et 6 illustrent un mode de réalisation du calcul de la corrélation monodimensionnelle croisée horizontale d'une demi-image gauche et d'une demi-image droite. La Fig. 7 représente un exemple d'architecture d'un dispositif mettant en oeuvre le procédé.

La Fig. 4 représente un diagramme des étapes du procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques. Le procédé comporte une étape d'obtention d'une carte de similarité relative à chaque image stéréoscopique.

Selon un mode de réalisation, cette carte de disparité est obtenue directement à partir du flux vidéo reçu par le décodeur DEC. Selon un autre mode de réalisation, cette carte de similarité est calculée par corrélation monodimensionnelle croisée horizontale de l'image gauche et de l'image droite.

De préférence, tel qu'illustré aux Figs. 5 et 6, la corrélation monodimensionnelle croisée horizontale est calculée à partir de la demi-image gauche Ig(i,j) et de la demi-image droite Id(i,j) qui sont issues du flux vidéo reçu par le décodeur DEC. Cette corrélation est définie par le minimum entre la disparité SADI (i j,d) (Fig. 3) de la demi-image gauche avec la demi-image droite et la disparité SAD2(i j,d) (Fig. 4) de la demi-image droite avec la demi-image gauche.

Le minimum entre les disparités SADI (i j,d) et SAD2(i j,d) pour chaque pixel des demi-images gauche et droite correspond à un pic de corrélation pour ce pixel. La carte de disparité DISP(i j, t) est alors déduite directement de ces pics de corrélation à un facteur prés correspondant à des paramètres optiques relatifs à la projection de la scène sur le plan focal des caméras d'acquisition.

En termes mathématiques, la carte de disparité DISP(i j,t) calculée par corrélation monodimensionnelle croisée est donnée pour un pixel (i j) de l'image stéréoscopique t par : DISP(i, j, t) = d 1 min[S4D1(i, j, d), S4D2(i, j, d)] < min[S4D1(i, j, p), S4D2(i, j, p)] bp E {1,...D} avec

S4D1(i,j,d)= 1 11(19(i+k,j+1)-id(i+k+N,+d,j+1» KxL

S4D2(i,j)= 1 11(19(i+k+d,j+1)-id(i+k+N,,j+1» KxL k=1 1=1 Dans ces expressions, d désigne une valeur entière de décalage monodimensionnel horizontal appartenant à une plage de valeurs discrètes variant entre une valeur entière négative -D et une valeur entière positive D. La valeur D (et - D) dépend de l'écart entre les deux caméras qui ont servi à l'acquisition des deux demi-images. K et L désignent respectivement un nombre de colonnes et de lignes d'un voisinage centré autour d'un pixel (i j) d'une demi-image, NI et Nc désignent respectivement le nombre de colonnes et de lignes des demi-images Ig et Id, et 1.1 désigne l'opérateur de valeur absolue.

Ce mode de réalisation pour calculer la corrélation monodimensionnelle croisée est avantageux car il permet de rejeter de faux appariements entre les deux demi-images. A cet effet, la disparité DISP(i j) pour un décalage positif d est comparée à la disparité DISP(i j) pour le même décalage mais négatif -d. Un faux appariement est détecté si ces deux disparités sont éloignées l'une de l'autre d'une valeur supérieure à un seuil. Dans ce cas, le décalage d n'est pas pris en compte pour la corrélation mono dimensionnelle croisée DISP(i j,t).

De plus, lorsque le procédé est associé à un décodeur de type MPEG4, les 30 calculs SADI (i j, d) et SAD2 (i j, d) qui sont habituellement utilisés pour l'estimation de mouvement inter-image de la séquence d'images sont réutilisés pour calculer la carte de disparité, minimisant ainsi les coûts de calcul de cette carte de disparité. La plupart du temps, les caméras qui ont été utilisées pour l'acquisition des deux demi-images gauche et droite sont alignées dans un plan dit épipolaire, c'est-à-dire qu'il n'existe pas de disparité verticale entre ces deux demi-images. Selon une variante de ce mode de réalisation relatif au cas où les deux caméras ne seraient pas dans le plan épipolaire, le calcul de la carte de disparité est précédé d'une étape de compensation de la disparité verticale des deux demi-images gauche et droite par corrélation verticale globale.

Selon une autre variante de ce mode de réalisation, la carte de disparité est filtrée temporellement par un filtre passe-bas de premier ordre pour lisser les erreurs induites par des bruits inhérents aux calculs d'une carte de disparité. En termes mathématiques, ce filtrage est donné par : DI S°F(i, j, t) = a xDl S°(i, j, t) + (1- a ) xDl S°(i, j, t -1) avec a un coefficient de filtrage variant entre 0 et 1 et t une variable qui indique la carte de disparité courante tandis que (t-1) désigne la carte de disparité relative à une image stéréoscopique précédente. Le coefficient de filtrage est égal à 1 lorsqu'un nouveau groupe d'images (Groupe Of Picture en anglais) débute ou lorsqu'un changement de scène est détecté dans la séquence d'images stéréoscopiques. Le filtre passe-bas est alors dit débrayé c'est-à-dire qu'il n'a plus aucun effet sur la carte de disparité : DISPF(i j, t) =DISP(i j, t). Un détecteur de changement de scène est implémenté à cet effet par un bloc de traitement indépendant ou intégré à un décodeur MPEG4 du décodeur DEC.

Le débrayage du filtre passe-bas évite de mélanger des cartes de disparité relatives à des vues de la scène totalement différentes ce qui pourrait induire des erreurs dans cette carte de disparité et rendre très gênant, pour un utilisateur, un objet visualisé qui aurait été incrusté dans une zone de l'image stéréoscopique à très faible profondeur (forte disparité).

Ce filtrage temporel suppose que les mouvements des caméras utilisées pour l'acquisition des deux images gauche et droite sont de faibles amplitudes. Si ce n'est pas le cas, selon une variante, le filtrage temporel est précédé d'une étape de compensation de mouvement des images stéréoscopiques de la séquence afin d'éviter des zones floues dans la carte de disparité.

Cette compensation de mouvement peut être basée, par exemple, sur des informations de mouvement inter-image issues d'un décodeur MPEG2/MPEG4.

Selon une autre caractéristique, le procédé comporte aussi une étape de sélection d'une fenêtre d'incrustation de l'objet parmi un ensemble de fenêtres candidates, ladite fenêtre d'incrustation étant celle dont la disparité moyenne, obtenue à partir de la carte de disparité, est minimale.

A cet effet, il est connu que des fenêtres d'incrustation soient prédéterminées pour incruster des objets selon leur type tel que expliqué dans la partie introductive.

L'étape de sélection consiste alors à calculer la disparité moyenne DISPMOY(t) de chacune de ces fenêtres d'incrustation candidates calculée à partir de la carte de disparité et de sélectionner la fenêtre d'incrustation PIP(i j,t) qui minimise cette disparité moyenne.

En termes mathématiques, la disparité moyenne DISPMOY(t) d'une fenêtre d'incrustation candidate est calculée par : M N DI SPMOY(t) = DI SPF(m n, t)l MxN '}1 n-1

avec M et N le nombre de lignes et de colonnes de la fenêtre d'incrustation sélectionnée.

L'objet est ainsi incrusté dans la fenêtre d'incrustation ainsi sélectionnée, c'est-à-dire dans une zone de l'image stéréoscopique qui comporte des objets à faible profondeur, c'est-à-dire dans une zone de cette image à faible relief. Cette zone ne captera pas l'attention de l'utilisateur lors de la visualisation de cette image stéréoscopique sur l'écran 3DTV car l'utilisateur se focalise d'abord sur les objets situés au premier plan de l'image stéréoscopique, c'est-à-dire sur les objets de la scène qui ont le plus de relief.

Dans le cas où l'objet à incruster est un objet 2D, cet objet est représenté par une image 2D. C'est le cas, par exemple, d'un texte, tel qu'un sous-titre ou encore d'une vidéo 2D. Dans ce cas, pour incruster cet objet 2D dans une séquence stéréoscopique, cette image 2D est dupliquée pour obtenir deux images de cet objet 2D par image stéréoscopique de la séquence.

Dans le cas où l'objet à incruster est un objet 3D, deux images sont déjà associées à cet objet. C'est le cas, par exemple, d'un OSD (On Screen Display) 3D. En effet, un OSD 3D est une interface utilisateur qui apparaît sur l'écran 3DTV avec un effet jaillissant et qui permet d'effectuer des réglages de cet écran ou d'un autre appareil qui lui est relié (lecteur Blu Ray, démodulateur...). L'effet jaillissant est basé sur la création de deux images 2D de l'OSD 3D et s'obtient par un parallaxe négatif qui dépend de la taille de l'écran et de la distance entre l'écran et l'utilisateur. Dans le cas où les deux images d'un objet à incruster ont des dimensions supérieures à celles de la fenêtre d'incrustation sélectionnée, ces images sont filtrées par un filtre passe-bas puis sous-échantillonnées horizontalement. Le rapport de sous-échantillonnage RE est fonction des dimensions de l'objet et de la fenêtre d'incrustation sélectionnée. Ce rapport RE est, par exemple une puissance de 2 tel que par exemple 4, 8, 16,32 etc. Afin de conserver les rapports entre dimensions horizontale et verticale de l'objet, l'échantillonnage vertical suit le rapport RE en horizontal dans un rapport de 'A pour que, lors de la visualisation finale sur l'écran 3DTV, l'objet apparaisse sans déformation de formes. Ce filtrage passe-bas est une moyenne pondérée qui évite des défauts d'aliasing qui se produiraient sur l'image sous-échantillonnée en l'absence de filtrage selon le théorème de Shannon.

Selon une autre caractéristique, le procédé comporte également une étape de définition des fenêtres d'incrustation dans les deux demi-images gauche Ig et droite Id. Au cours de cette étape, une fenêtre (PIP(i j,t)) de la demi-image gauche (Ig) de l'image stéréoscopique dans laquelle l'image gauche de l'objet est incrustée est définie comme étant la fenêtre d'incrustation sélectionnée et une fenêtre (PIP(i+OFFSET,j,t)) de la demi-image droite (Id) dans laquelle l'image droite de l'objet est incrustée et définie comme étant la fenêtre d'incrustation sélectionnée décalée horizontalement d'une valeur de décalage (OFFSET) égale à la disparité moyenne de cette fenêtre d'incrustation sélectionnée. Dans le cas où l'objet à incruster est un objet 3D, tel qu'un texte ou un OSD, cette valeur de décalage OFFSET est choisie entre un minimum donné par la disparité moyenne DISPMOY(t) de la fenêtre d'incrustation sélectionnée calculée à partir de la carte de disparité et un maximum, fonction de la taille de l'écran 3DTV. En effet, le fait d'incruster dans une vidéo 3D, qui par définition possède une disparité DI entre les images gauche et droite, un objet graphique ou texte en 3D de disparité Dincru va augmenter la disparité initiale (DI < DI+Dincru). Le décalage OFFSET est alors, d'une part, limité à un maximum déterminé pour que la vidéo finale possède une disparité telle que l'on peut visualiser cette vidéo sur l'écran 3DTV, c'est-à-dire éviter que le décalage entre les images gauche et droite de chaque image stéréoscopique visualisée sur cet écran fasse sortir ces images du champ de vision et, d'autre part, limité à la distance interoculaire qui est de l'ordre de 65mm (110 pixels) pour un écran 3DTV de 50". La taille de l'écran 3DTV est, par exemple, obtenue suite aux messages échangés entre le décodeur DEC et l'écran 3DTV lors de la première connexion de cet 5 écran avec ce décodeur. Les demi-images Ig et Id sont alors extrapolées pour obtenir une image droite et une image gauche pleine résolution. Cette extrapolation s'applique également aux deux images, éventuellement filtrées et sous-échantillonnées, de l'objet à incruster. L'image pleine résolution gauche relative à l'image stéréoscopique est alors 10 visualisée simultanément à l'image de l'objet qui apparaît dans la fenêtre d'incrustation PIP(i j,t) et, en alternance, l'image pleine résolution droite relative à l'image stéréoscopique est alors visualisée simultanément à l'image de la vidéo 2D qui apparaît dans la fenêtre d'incrustation PIP(i+OFFSET, j,t). La Fig. 7 représente un exemple d'architecture d'un dispositif mettant en oeuvre 15 le procédé. Le dispositif 700 comporte, reliés par un bus de communication 701 : - un processeur, micro-processeur, microcontrôleur (noté µc) ou CPU (Central Processing Unit en anglais ou Unité Centrale de Traitement en français) 702 ; - une mémoire vive RAM (Random Access Memory en anglais ou Mémoire à 20 Accès Aléatoire en français) 703 ; - une mémoire morte ROM (Read Only Memory en anglais ou Mémoire à Lecture Seule en français) 704 ; - un lecteur 705 de medium de stockage, tel qu'un lecteur de carte SD (Secure Digital Card en anglais ou Carte Numérique Sécurisée en français) ; 25 - des moyens d'interface 706 avec un réseau de communication, comme par exemple un réseau de radiotéléphonie cellulaire ; et - des moyens d'interface homme-machine 707, permettant, par exemple, gérer un écran, éventuellement tactile et/ou un ensemble de touches. Le microcontrôleur 702 est capable d'exécuter des instructions chargées dans la 30 RAM 703 à partir de la ROM 704, d'une mémoire externe (non représentée), d'un support de stockage, tel qu'une carte SD ou autre, ou d'un réseau de communication. Lorsque le dispositif 700 est mis sous tension, le microcontrôleur 702 est capable de lire de la RAM 703 des instructions et de les exécuter. Ces instructions forment un programme d'ordinateur qui cause la mise en oeuvre, par le microcontrôleur 702, de tout ou partie du procédé décrit ci-dessus en relation avec la Fig. 4. Tout ou partie du procédé décrit ci-dessus en relation avec la Fig. 4 peut être implémenté sous forme logicielle par exécution d'un ensemble d'instructions par une machine programmable, tel qu'un DSP (Digital Signal Processor en anglais ou Unité de Traitement de Signal Numérique en français) ou un microcontrôleur, tel que le microcontrôleur 702, ou être implémenté sous forme matérielle par une machine ou un composant dédié, tel qu'un FPGA (Field-Programmable Gate Array en anglais ou Matrice de Portes Programmable sur Champ en français) ou un ASIC (Application- Specific Integrated Circuit en anglais ou Circuit Intégré Spécifique à une Application en français). Le dispositif 700 peut être intégré dans le décodeur DEC de la partie introductive et tout ou partie des moyens de ce dispositif 700 peuvent être ceux de ce décodeur DEC.

Claims

REVENDICATIONS1) Procédé d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques, une image gauche (Ig(i,j)) et une image droite (Id(ij)) étant obtenues à partir de chaque image stéréoscopique, caractérisé en ce qu'il comporte les étapes suivantes: - obtenir une carte de disparité relative à chaque image stéréoscopique, - sélectionner une fenêtre d'incrustation de l'objet parmi un ensemble de fenêtres candidates, ladite fenêtre d'incrustation étant celle dont la disparité moyenne, calculée à partir de la carte de disparité, est minimale, et - définir une fenêtre (PIP(i j,t» de l'image gauche (Ig) dans laquelle l'image gauche de l'objet est destinée à être incrustée, comme étant la fenêtre d'incrustation sélectionnée, et une fenêtre (PIP(i+OFFSET,j,t» de l'image droite (Id) dans laquelle l'image droite de l'objet est destinée à être incrustée, comme étant la fenêtre d'incrustation sélectionnée décalée horizontalement d'une valeur de décalage (OFFSET) égale à la disparité moyenne de cette fenêtre d'incrustation sélectionnée.
2) Procédé selon la revendication 1, dans lequel la carte de disparité est calculée par corrélation monodimensionnelle croisée horizontale de l'image gauche et de l'image droite.
3) Procédé selon la revendication 2, dans lequel la corrélation monodimensionnelle croisée horizontale de l'image gauche (Ig(i,j)) et de l'image droite (Id(i,j)) est définie par le minimum entre la disparité de l'image gauche avec l'image droite et la disparité (SAD2(i j» de l'image droite avec l'image gauche.
4) Procédé selon l'une des revendications 2 à 3, dans lequel l'étape de calcul de la carte de disparité est précédée d'une étape de compensation de la disparité verticale des deux images gauche et droite par corrélation verticale globale. 30
5) Procédé selon l'une des revendications 2 à 4, dans lequel la carte de disparité est filtrée temporellement par un filtre passe-bas de premier ordre. 25
6) Procédé selon la revendication 5, dans lequel le filtre passe-bas n'a pas d'effet lorsqu'un changement de scène est détecté dans la séquence d'images stéréoscopiques.
7) Procédé selon la revendication 6, dans lequel le filtrage temporel est précédé d'une étape de compensation de mouvement des images stéréoscopiques de la séquence.
8) Procédé selon l'une des revendications précédentes, dans lequel dans le cas où l'objet à incruster est un texte 3D ou un OSD, cette valeur de décalage (OFFSET) est choisie entre un minimum donné par la disparité moyenne (DISPMOY(t)) de la fenêtre d'incrustation sélectionnée calculée à partir de la carte de similarité et un maximum, fonction de la taille de l'écran de visualisation de la séquence d'images stéréoscopiques.
9) Programme d'ordinateur caractérisé en ce qu'il comprend des instructions pour mettre en oeuvre, par un dispositif, le procédé selon l'une des revendications 1 à 8 lorsque ledit programme est exécuté par un processeur du dispositif.
10) Moyens de stockage caractérisés en ce qu'ils stockent un programme d'ordinateur comprenant des instructions pour mettre en oeuvre, par un dispositif, le procédé selon l'une des revendications 1 à 8, lorsque ledit programme est exécuté par un processeur du dispositif.
11) Dispositif d'optimisation du positionnement d'une fenêtre d'incrustation d'un objet de type vidéo, graphique ou texte sur une séquence d'images stéréoscopiques, une image gauche (Ig(i,j)) et une image droite (Id(i,j)) étant obtenues à partir de chaque image stéréoscopique, caractérisé en ce qu'il comporte des moyens pour: - obtenir une carte de similarité relative à chaque image stéréoscopique, - sélectionner une fenêtre d'incrustation de l'objet parmi un ensemble de fenêtres candidates, ladite fenêtre d'incrustation étant celle dont la disparité moyenne, obtenue à partir de la carte de disparité, est minimale, et- définir une fenêtre (PIP(i j,t» de l'image gauche (Ig) de l'image stéréoscopique dans laquelle l'image gauche de l'objet est incrustée comme étant la fenêtre d'incrustation sélectionnée et une fenêtre (PIP(i+OFFSET,j,t» de l'image droite (Id) dans laquelle l'image droite de l'objet est incrustée comme étant la fenêtre d'incrustation sélectionnée décalée horizontalement d'une valeur de décalage (OFFSET) égale à la disparité moyenne de cette fenêtre d'incrustation sélectionnée.