FR3143245A1

FR3143245A1 - Procédé et dispositif de codage et décodage d’images.

Info

Publication number: FR3143245A1
Application number: FR2213095A
Authority: FR
Inventors: Felix Henry; Theo LADUNE; Pierrick Philippe; Gordon Clare
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2024-06-14
Also published as: WO2024121109A1

Abstract

Procédé et dispositif de codage et décodage d’images L’invention concerne un procédé et dispositif de codage et décodage d’un signal comprenant une pluralité d’échantillons Le procédé de décodage comporte les étapes suivantes : - décodage d’un premier groupe de cartes de caractéristiques représentatives du signal ;- décodage d’un ensemble de paramètres représentatifs d’un réseau de neurones, dit de synthèse, - pour au moins un échantillon, dit échantillon courant, du signal à décoder, associé à une position dans le signal à décoder : - construction d’un vecteur caractéristique à partir des cartes de caractéristiques dudit premier groupe en fonction de ladite position dudit vecteur par le réseau de neurones de synthèse défini par les paramètres décodés pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant. - décodage codage dudit premier groupe de cartes de caractéristiques comprenant, pour au moins une valeur, dite valeur courante, d’une desdites cartes de caractéristiques, un codage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage. Figure pour l’abrégé : Fig. 2.

Description

Procédé et dispositif de codage et décodage d’images.

L’invention se rapporte au domaine général du codage de signaux mono ou multidimensionnels. Elle concerne plus particulièrement la compression des images numériques.

Les images numériques font en général l’objet d’un codage source visant à les compresser afin de limiter les ressources nécessaires à leur transmission et/ou à leur stockage. Il existe de nombreux standards de codage, tels que, pour les images fixes, les standards de la famille JPEG, et pour les images animées, ou vidéo, les standards des organismes ITU/MPEG (H.264/AVC, H.265/HEVC, H.266/VVC, etc.) ainsi que leurs extensions (MVC, SVC, 3D-HEVC, etc.).

L’encodage d’une image est généralement effectué en divisant l’image en plusieurs blocs rectangulaires, et en encodant ces blocs de pixels selon une séquence de traitement donnée. Dans les techniques existantes de compression vidéo, le traitement d’un bloc comprend typiquement une prédiction des pixels du bloc effectuée à l’aide de pixels précédemment codés puis décodés présents dans l’image en cours d’encodage, auquel cas on parle de « prédiction Intra », ou d’images précédemment codées, auquel cas on parle de « prédiction Inter ». Cette exploitation des redondances spatiales et/ou temporelles permet d’éviter de transmettre ou de stocker la valeur des pixels de chaque bloc de pixels, en représentant certains au moins des blocs par un résiduel représentant une différence entre les valeurs de prédiction des pixels du bloc et les valeurs réelles des pixels du bloc prédit.

Les formats vidéo ne cessant d'évoluer pour compresser toujours davantage et s’adapter à la variété de formats attendus et des réseaux de communication, les possibilités de prédiction deviennent de plus en plus grandes et les algorithmes de codage et décodage classiques très complexes.

En plus de ces approches classiques proposées par les normes de compression (JPEG, MPEG, ITU), les approches basées sur l’intelligence artificielle, et notamment neuronales, tendent à se développer.

Certaines de ces approches neuronales peuvent être vues comme une simple extension de la notion de compétition des techniques de compression susmentionnées, telles que la compétition de mode de prédiction et transformation en codage vidéo.

D’autres approches utilisent le concept « d’auto-encodeur ». Les auto-encodeurs sont des algorithmes d’apprentissage à base de réseaux de neurones artificiels, qui permettent de construire une nouvelle représentation d’un jeu de données. L’architecture d’un auto-encodeur est constituée de deux parties : l’encodeur et le décodeur. L’encodeur est constitué par un ensemble de couches de neurones, qui traitent les données afin de construire de nouvelles représentations dites “encodées”, appelées aussi « représentations latentes ». À leur tour, les couches de neurones du décodeur reçoivent ces représentations et les filtrent afin d’essayer de reconstruire les données de départ. Les différences entre les données reconstruites et les données initiales permettent de mesurer l’erreur commise par l’auto-encodeur. L’entraînement consiste à modifier les paramètres de l’auto-encodeur afin de réduire l’erreur de reconstruction mesurée sur les différents échantillons du jeu de données. Les performances de tels systèmes à base d'auto-encodeur se font au prix d'une augmentation considérable de l'empreinte mémoire et de la complexité comparativement aux approches conventionnelles telles que proposées par les normes de compression. Ils peuvent avoir des millions de paramètres et peuvent nécessiter jusqu'à un million de MAC (multiplication-accumulation) pour décoder un seul pixel. Cela rend de tels décodeurs bien plus complexes que les décodeurs conventionnels, ce qui pourrait entraver l'adoption de la compression basée sur l'apprentissage.

Plus récemment, une technique simple d’encodage d’image fondé sur un réseau de neurones a été décrite dans l’article « COmpression with Implicit Neural representations » d’Emilien Dupont et al. (arXiv:2103.03123). La technique de codage proposée consiste à ajuster un réseau de neurones à une image, quantifier les poids du réseau et les transmettre. Au moment du décodage, le réseau de neurones est évalué à chaque position de pixel pour reconstruire l'image. Une telle technique reste cependant inefficace en termes de compression.

Il existe donc un besoin pour une solution permettant de coder/compresser une image ou une séquence d’images de manière simple et efficace.

L’invention vise un procédé de codage d’un signal comprenant une pluralité d’échantillons à coder comportant les étapes suivantes :
- une étape de construction, comportant les sous-étapes de :
- construction d’un premier groupe de cartes de caractéristiques représentatives du signal;
- pour au moins un échantillon, dit échantillon courant, du signal à coder, associé à une position dans le signal à coder :
- construction d’un vecteur caractéristique à partir desdites cartes de caractéristiques dudit premier groupe, en fonction de ladite position dudit échantillon courant;
- traitement dudit vecteur caractéristique par un réseau de neurones artificiels, dit réseau de neurones de synthèse, défini par un ensemble de paramètres, pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant ;
- mise à jour d'au moins une valeur d’une desdites cartes de caractéristiques dudit premier groupe et/ou d’au moins un paramètre dudit réseau, en fonction d’une mesure de performance de codage,
- une étape de codage dudit premier groupe de cartes de caractéristiques comprenant, pour au moins une valeur, dite valeur courante, d’une desdites cartes de caractéristiques, un codage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- une étape de codage dudit ensemble de paramètres dudit réseau de neurones de synthèse.

L'invention vise aussi un procédé de décodage d’un signal comprenant une pluralité d’échantillons à décoder comportant les étapes suivantes :
- décodage d’un premier groupe de cartes de caractéristiques représentatives du signal comprenant, pour au moins une valeur, dite valeur courante, d’une desdites cartes de caractéristiques, un décodage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- décodage d’un ensemble de paramètres représentatifs d’un réseau de neurones, dit réseau de neurones de synthèse ;
- pour au moins un échantillon, dit échantillon courant, du signal à décoder, associé à une position dans le signal à décoder :
- construction d’un vecteur caractéristique à partir des cartes de caractéristiques dudit premier groupe, en fonction de ladite position dudit échantillon courant , et :
- traitement dudit vecteur par le réseau de neurones de synthèse défini par les paramètres décodés pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant.

Au sens de l’invention, on entend par encodage, ou « codage», l’opération qui consiste à représenter un ensemble d’échantillons sous une forme compacte portée par exemple par un train binaire numérique. On entend par décodage l’opération qui consiste à traiter un train binaire numérique pour restituer des échantillons décodés.

Par « échantillon » du signal, on entend une valeur prélevée dans le signal. L’échantillonnage du signal produit une suite de valeurs discrètes nommées échantillons. Dans le cas d’un signal d’image, l’échantillon prend le nom de pixel qui peut être par exemple un pixel couleur représenté traditionnellement par un triplet de valeurs, par exemple (R, G,B) ou (Y, U,V). La position de l’échantillon est repérée par ses coordonnées en abscisse (x) et ordonnée (y) dans l’image.

Par « signal comprenant une pluralité d’échantillons » on entend un signal à une (audio, son), deux (image) ou plus de deux (image stéréoscopique, multiscopique, image associée à une carte de profondeur, vidéo, etc.) dimensions. En fonction de cette dimensionnalité, l’échantillon possède une, deux ou plusieurs coordonnées dans le signal. Dans le cas d’un signal d’image, la position de l’échantillon est repérée par ses coordonnées en abscisse (x) et ordonnée (y).

Par « cartes de caractéristiques », on entend une représentation abstraite du signal comportant une pluralité de données variables, discrètes ou non, que l’on appelle aussi valeurs, par exemple des nombres réels ou entiers. De manière connue, ces cartes sont aussi désignées sous le terme de « représentation latente ».

Par « transformation des cartes de caractéristiques », on entend une opération mathématique qui permet de transformer les valeurs d’une première carte en valeurs d’une seconde carte. Une première carte, dite carte du premier groupe, destinée au codage, est quelconque. Une seconde carte, dite carte transformée, ou carte du second groupe, est à la même résolution que le signal d’entrée, c’est-à-dire qu’elle comporte autant de valeurs que le signal d’entrée (resp. à décoder) comporte d’échantillons (N). La transformation peut comporter par exemple une interpolation, un suréchantillonnage, un filtrage, une quantification, une transformée de Fourier, etc.

Par « vecteur caractéristique de données construit à partir des cartes de caractéristiques en fonction d’une position » on entend un vecteur constitué d’un ou plusieurs éléments, ou données, de préférence discrètes, les données étant construites à partir des cartes de caractéristiques à une position déterminée par celle de l’échantillon en cours de traitement dans le signal. Ce vecteur caractéristique est celui qui est appliqué à l’entrée du réseau de neurones de synthèse. Par exemple, dans le cas d’un signal audio monodimensionnel, un tel vecteur peut être constitué à partir d’une pluralité de valeurs prélevées dans chacune des cartes de caractéristiques à la même coordonnée que l’échantillon à coder. Dans le cas d’une image, un tel vecteur peut être constitué à partir d’une pluralité de valeurs prélevées dans chacune des cartes de caractéristiques aux mêmes coordonnées en abscisse et en ordonnée que l’échantillon à coder (resp. à décoder). Une fois que ces valeurs sont prélevées dans les cartes de caractéristiques, elles peuvent être traitées pour constituer le vecteur caractéristique, avant l’entrée dans le réseau de neurones de synthèse, par exemple par une quantification, un filtrage, une interpolation, etc.

Par « réseau de neurones de synthèse», on entend un réseau neuronal tel un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc. Le réseau de neurones est défini par exemple par une pluralité de couches de neurones artificiels et par un ensemble de fonctions d'activation, de pondération et d’addition (par exemple, une couche peut calculer y = f (Ax+b), où y et b sont des vecteurs de dimension N, x un vecteur de dimension M, A est une matrice de dimension MxN, et f est la fonction d’activation).

Par « paramètre du réseau de neurones », on entend une des valeurs qui caractérise le réseau de neurones, par un exemple un poids associé à l’un des neurones (coefficient de filtre, pondération, biais, valeur affectant le fonctionnement de la non-linéarité, etc.)

Par « traitement par un réseau de neurones de synthèse », on entend l’application d’une fonction exprimée par un réseau de neurones de synthèse au vecteur caractéristique d’entrée pour produire un vecteur de sortie représentatif de l’échantillon à coder (resp. décoder). Ce vecteur de sortie peut comporter une ou plusieurs données représentatives de l’échantillon.

Par « mesure de performance », on entend une mesure entre au moins une valeur d’un échantillon à coder et une valeur décodée dudit échantillon. La mesure peut évaluer par exemple une distorsion, ou une erreur perceptive. Elle peut être effectuée sur un échantillon ou une pluralité d’échantillons (par exemple, un échantillon courant, ou l’image courante, etc.). La mesure peut comporter aussi une mesure du débit, notamment associé au codage du réseau de neurones de synthèse et/ou au codage des cartes de caractéristiques du premier groupe. La mesure peut être une mesure conjointe entre le débit et la distorsion au travers de leur pondération. Comme il est bien connu de l’état de l’art, il est généralement procédé à une minimisation de la valeur de cette mesure jusqu’à atteindre une valeur cible.

Par « étape de construction », on entend une étape qui vise à construire les paramètres représentatifs de l’image, avant leur codage effectif. Les sous-étapes de construction peuvent être réitérées autant que nécessaire pour obtenir une mesure de performance acceptable.

De manière générale, on considère que les étapes d’un procédé de codage ou décodage ne doivent pas être interprétées comme étant liées à une notion de succession temporelle. Autrement dit, les étapes peuvent être effectuées dans un ordre différent de celui indiqué dans la revendication indépendante de codage ou de décodage, voire en parallèle.

Le procédé de codage selon l’invention réalise une construction des paramètres de codage, à partir du signal d’entrée, par exemple une image, en entraînant un réseau de neurones dit de synthèse sur des vecteurs caractéristiques associés à une position d’un échantillon à coder. Ces vecteurs caractéristiques sont construits à partir de cartes de caractéristiques qui peuvent être à la résolution du signal d’entrée, ou à une résolution inférieure. Au cours de l’entraînement, ou construction, les paramètres du réseau de neurones et les valeurs des cartes de caractéristiques sont mis à jour en fonction d’une mesure de performance, par exemple de type débit-distorsion. Lorsque l’entraînement est terminé, c’est-à-dire que la mesure de performance obtenue est satisfaisante, le codage effectif des paramètres du réseau de neurones de synthèse et des valeurs des cartes de caractéristiques peut être effectué et mémorisé ou transmis à destination du décodeur.

Avantageusement, le processus d’entraînement permet de raffiner les paramètres du réseau de neurones de synthèse et/ou les valeurs des cartes de caractéristiques jusqu’à obtenir une représentation adéquate en termes de performance, par exemple un équilibre souhaité entre le débit généré et la distorsion subie par le signal d’entrée. L’entraînement des valeurs des cartes de caractéristiques et des paramètres du réseau de neurones de synthèse peut être conjoint. Avantageusement, le procédé de codage selon l’invention permet de compresser efficacement le signal.

Avantageusement, le procédé de décodage est simple puisqu'il suffit de décoder les cartes de caractéristiques et le réseau de neurones de synthèse pour reconstituer une version décodée du signal, par exemple une image.

Avantageusement, le codage des cartes de caractéristiques est rendu particulièrement efficace par la prise en compte du voisinage de codage, ce qui permet d’exploiter les redondances présentes dans les cartes.

Un tel réseau de neurones de synthèse peut avantageusement être de structure très simple avec peu de paramètres.

De surcroît, le décodage peut être effectué échantillon par échantillon, de manière progressive.

Selon des modes de réalisation du procédé de codage ou de décodage :

- Le procédé de codage comprend les sous-étapes suivantes de codage de ladite valeur courante d’une desdites cartes de caractéristiques;
- construction d’un vecteur de voisinage à partir desdites cartes de caractéristiques dudit premier groupe, et ;
- traitement dudit vecteur de voisinage par un réseau de neurones artificiels, dit réseau de neurones de prédiction, défini par un ensemble de paramètres, pour fournir une prédiction de ladite valeur courante;
- mise à jour d’au moins un paramètre dudit réseau de prédiction, en fonction de la mesure de performance de codage,
- codage dudit ensemble de paramètres du réseau de prédiction.

Le procédé de décodage comprend les sous-étapes suivantes de décodage de ladite valeur courante, d’une desdites cartes de caractéristiques;
- décodage d’un ensemble de paramètres représentatifs d’un réseau de neurones, dit réseau de neurones de prédiction ;
- construction d’un vecteur de voisinage à partir desdites cartes de caractéristiques dudit premier groupe, et ;
- traitement dudit vecteur par le réseau de neurones de prédiction, pour fournir une prédiction de ladite valeur courante;

Avantageusement selon ce mode de codage ou décodage, les cartes de caractéristiques sont compressées efficacement par un réseau de neurones de prédiction apte à prédire une valeur de la carte en fonction de son voisinage. Par « vecteur de voisinage », on entend un vecteur constitué d’un ou plusieurs éléments, ou données, construites à partir des cartes de caractéristiques à une position voisine de celle de l’échantillon courant, qui est aussi celle de la valeur courante dans la carte de caractéristiques. La position voisine peut indiquer une valeur dans la carte en cours de traitement (par exemple, la valeur voisine en haut à gauche de celle en cours de traitement) ou dans une autre carte de caractéristiques (par exemple, la valeur voisine à la même position dans la carte précédente). Ce vecteur de voisinage est celui qui est appliqué à l’entrée du réseau de neurones de prédiction. Par « prédiction » on entend au moins une donnée permettant d’estimer une valeur courante de la carte de caractéristiques, par exemple une probabilité, une valeur statistique, etc. Le réseau de neurones de prédiction, entraîné sur les cartes de l’image, est apte à les représenter efficacement. Il est de surcroît peu couteux à coder.

Le procédé comporte une étape de transformation dudit premier groupe de cartes de caractéristiques pour obtenir un second groupe de cartes de caractéristiques à la résolution du signal d’entrée, le procédé étant caractérisé en ce que ledit vecteur caractéristique est construit à partir desdites cartes de caractéristiques du second groupe.

Avantageusement selon ce mode, les cartes de caractéristiques sont divisées en deux groupes dont l’un est réservé à l’extraction des vecteurs caractéristiques et l’autre au codage. On peut ainsi dissocier les deux procédés dont la finalité est différente : les cartes du premier groupe, à coder (resp. décoder), doivent être compressées le plus efficacement possibles, alors que les cartes du second groupe doivent pouvoir faciliter le processus d’extraction et de construction du vecteur caractéristique.

– Selon une variante, une au moins des cartes de caractéristiques du premier groupe est de résolution inférieure à celle du signal à coder (resp. décoder) et l’opération de transformation comporte un suréchantillonnage. Avantageusement selon ce mode, la compression des cartes de caractéristiques est plus efficace puisque l’une au moins des cartes de caractéristiques du premier groupe, à coder (resp. décoder), comporte moins de valeurs que si elle était à la résolution du signal. Par exemple, dans le cas d’une image numérique, l’une des cartes de caractéristiques du premier groupe peut être à la résolution 1/2, c’est-à-dire qu’elle comporte deux fois moins de valeurs en abscisse et en ordonnée que l’image d’entrée comporte d’échantillons, soit au total 4 fois moins de valeurs qu’une carte de caractéristiques à la résolution de l’image. En revanche, la carte de caractéristique du second groupe qui correspond à une transformation de cette carte du premier groupe est de résolution identique à celle du signal. La transformation comporte donc dans ce cas au moins une opération de suréchantillonnage pour obtenir le même nombre de valeurs dans cette carte transformée que le signal d’entrée (resp. à décoder) comporte d’échantillons.

– Une au moins desdites cartes de caractéristiques du premier groupe est de résolution identique à celle du signal à coder (resp. décoder).

Avantageusement selon ce mode, l’une au moins des cartes de caractéristiques, à la même résolution que le signal d’entrée à coder (resp. à décoder) permet une fidélité importante et le respect des détails de la résolution initiale du signal. La transformation selon un mode de réalisation conserve dans ce cas le nombre de valeurs de la carte de caractéristiques transformée ; elle peut être réduite à l’identité (aucun traitement n’est effectué sur les valeurs de la carte du premier groupe) ou comporter une opération de filtrage, de quantification, une transformation de Fourier, etc.

Lors de l’étape de codage, une quantification est indispensable au bon fonctionnement du système si les cartes de caractéristiques comportent par exemple des valeurs flottantes, ou réelles. Il est nécessaire de les quantifier avant de les coder et/ou de les fournir en entrée du réseau de neurones de synthèse et/ou de prédiction. Au décodage en revanche, la quantification inverse n’est pas nécessaire, selon les modes de réalisation.

– La construction dudit vecteur caractéristique comporte une sous-étape d’extraction d’une valeur de ladite au moins une carte de caractéristiques à une position identique à celle de l’échantillon courant dans le signal à coder (resp. décoder).

Avantageusement, il est possible d’extraire une valeur d’une carte de caractéristique du premier ou du second groupe, à la même position que l’échantillon dans le signal (signal d’entrée pour le codage, signal à décoder pour le décodage), pour constituer un élément du vecteur caractéristique. Ce procédé est simple à mettre en œuvre. Par exemple, si l’on dispose de J cartes de caractéristiques en entrée, de même résolution que le signal, une simple extraction des valeurs des cartes aux coordonnées de l’échantillon courant (à la même abscisse et la même coordonnée dans la carte de caractéristiques) permet de construire directement le vecteur caractéristique de J éléments.

- La construction dudit vecteur caractéristique comporte les sous-étapes suivantes :
- extraction d’une pluralité de valeurs desdites cartes de caractéristiques dudit premier groupe en fonction de ladite position dudit échantillon courant ;
- traitement desdites valeurs extraites pour obtenir le vecteur caractéristique.

Avantageusement selon ce mode, le vecteur caractéristique est extrait des cartes de caractéristiques, qui peuvent être quelconques, et notamment à une résolution inférieure à celle du signal à coder (resp. décoder), avant de subir un traitement. Un tel traitement peut par exemple correspondre à une quantification des données extraites, ou à une mise à l’échelle, ou à un filtrage, etc. Au codage, une quantification est indispensable au bon fonctionnement du système si les cartes de caractéristiques comportent par exemple des valeurs flottantes, ou réelles. Il est nécessaire de les quantifier avant de les coder et/ou de les fournir en entrée du réseau de neurones de synthèse et/ou de prédiction. Au décodage en revanche, la quantification inverse n’est pas nécessaire, selon les modes de réalisation.

- Le procédé comporte une étape de construction d’un troisième groupe de cartes de caractéristiques et le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques.

Avantageusement, ces cartes supplémentaires du troisième groupe, construites de manière identique au codeur et au décodeur, ne sont ni stockées, ni transmises au niveau du codeur, ni décodées au niveau du décodeur. Elles permettent ainsi de bénéficier de données supplémentaires pour améliorer la compression sans dégrader le débit. Elles peuvent par exemple comprendre des coordonnées, des données causales disponibles dans les cartes du premier ou du second groupe, des données concernant d’autres images déjà traitées par le codeur ou décodeur, etc..

Corrélativement, l’invention vise aussi un dispositif de codage et un dispositif de décodage.

Les caractéristiques et avantages du procédé de codage ou décodage s’appliquent de la même façon au dispositif de codage ou décodage selon l’invention et vice versa.

L’invention vise également un programme d’ordinateur sur un support d’enregistrement, ce programme étant susceptible d’être mis en œuvre dans un ordinateur ou un dispositif de contrôle conforme à l’invention. Ce programme comporte des instructions adaptées à la mise en œuvre du procédé correspondant. Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

L’invention vise aussi un support d'information ou un support d’enregistrement lisible par un ordinateur, et comportant des instructions de programme d'ordinateur mentionné ci-dessus. Les supports d'information ou d’enregistrement peuvent être n'importe quel entité ou dispositif capable de stocker les programmes. Par exemple, les supports peuvent comporter un moyen de stockage, tel qu'une ROM, par exemple un CD-ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette ou un disque dur, une séquence d’ADN, ou une mémoire flash. D'autre part, les supports d'information ou d’enregistrement peuvent être des supports transmissibles tels qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par lien radio, par lien optique sans fil ou par d'autres moyens.

Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, chaque support d'informations ou d’enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution d’un procédé conforme à l’invention.

D’autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent des exemples de réalisation dépourvus de tout caractère limitatif.

la représente schématiquement un dispositif de codage utilisé dans le cadre de l’invention ;

la représente schématiquement un dispositif de décodage utilisé dans le cadre de l’invention ;

la illustre un exemple de réseau de neurones artificiels de synthèse utilisé dans le cadre de l’invention ;

La illustre un exemple de réseau de neurones artificiels de prédiction utilisé dans le cadre de l’invention ;

la est un logigramme représentant un exemple de procédé de codage qui peut être mis en œuvre par le dispositif de codage de la ;

la représente de manière illustrée un procédé de codage utilisé dans un mode de réalisation de l’invention ;

la est un logigramme représentant un exemple de procédé de décodage qui peut être mis en œuvre par le dispositif de décodage de la ;

la représente de manière illustrée un procédé de décodage utilisé dans un mode de réalisation de l’invention.

la est un logigramme représentant une méthode de codage de cartes de caractéristiques qui peut être mis en œuvre par le dispositif de codage de la et par le procédé de codage de la .

la est un logigramme représentant une méthode de décodage de cartes de caractéristiques qui peut être mis en œuvre par le dispositif de décodage de la et par le procédé de décodage de la .

la représente de manière illustrée une méthode de codage ou de décodage de cartes de caractéristiques.

la représente de manière illustrée une autre méthode de codage ou de décodage de cartes de caractéristiques.

La représente schématiquement un dispositif de codage ENC.

Ce dispositif de codage ENC comprend un module GEN de génération de cartes de caractéristiques, un module FME de génération de cartes de caractéristiques supplémentaires, un module SE de transformation, un module XTR d’extraction de données, un module TT de traitement et quantification, un module MLP correspondant à un réseau de neurones artificiels de synthèse, un module NNC de codage de réseau de neurones apte à coder le réseau de neurones de synthèse et optionnellement le réseau de neurones de prédiction, un module FMC de codage des cartes de caractéristiques, un module EVAL d’évaluation d’une performance de codage, un module MAJ de mise à jour.

Le dispositif de codage ENC peut être mis en œuvre au moyen d’un dispositif électronique comprenant un processeur et une mémoire, non représentés ; chacun des modules mentionnés ci-dessus peut alors être réalisé par la coopération du processeur et d’instructions de programme d’ordinateur mémorisées dans la mémoire susmentionnée et conçues pour effectuer les fonctionnalités du module concerné, notamment comme décrit ci-dessous, lorsque ces instructions sont exécutées par le processeur.

Le dispositif de codage ENC de la reçoit en entrée une succession d’échantillons à coder, notés P_n, par exemple une succession temporelle d’échantillons sonores, ou un ensemble de données d’image noté I (P_n). Dans ce second cas, le signal d’image I (P_n) peut représenter une image bidimensionnelle, ou une pluralité d’images bidimensionnelles (vidéo, composantes de couleur, composantes stéréoscopiques, multiscopiques, etc.). P_ndésigne un échantillon n du signal d’entrée comportant N échantillons. Dans un mode de réalisation, le signal est un signal d’image couleur représentée au moyen d’au moins une représentation bidimensionnelle, telle qu’une matrice de pixels, chaque pixel comportant une composante rouge (R), verte (G), bleue (B), ou, en variante, une composante de luminance (Y) et au moins une composante de chrominance (U,V). L'emplacement de chaque pixel est défini par ses coordonnées en abscisse et ordonnée (x et y) dans l'image. Dans un mode de réalisation, l’image est en niveau de gris représentée au moyen d’une représentation bidimensionnelle, telle qu’une matrice de pixels, chaque pixel comportant une composante de niveaux de gris, ou luminance. Dans ce cas, le vecteur représentatif du pixel est réduit à une seule composante.

Comme cela sera décrit plus en détail plus loin en référence aux figures 3 à 7 :

Le module GEN de génération de cartes de caractéristiques est configuré pour générer une pluralité de M cartes de caractéristiques notées FM_i. Le module FME facultatif peut générer une ou plusieurs cartes supplémentaires, au nombre de L, qui ne seront ni codées ni transmises, notées FME_l.

Dans un mode de réalisation, le module SE réalise une transformation du premier groupe de cartes de caractéristiques FM_ipour générer un second groupe de cartes de caractéristiques FMS_ià la même résolution que le signal d’entrée.

Le module SE, optionnel, peut réaliser une quantification des données extraites de cet ensemble de M cartes FM_i, ou du vecteur Z_nconstitué à partir de ces données. On rappelle que la quantification d'une valeur fait référence à la mise en correspondance de cette valeur avec un membre d'un ensemble discret de symboles de code possibles. Par exemple, l'ensemble de symboles de code possibles peut être constitué de valeurs entières, et le système de quantification réalise un simple arrondi d’une valeur réelle à une valeur entière. Selon un autre exemple, la quantification consiste en une multiplication par une valeur donnée puis un arrondi. Puis le module SE effectue une transformation des valeurs d’au moins une des cartes de caractéristiques, par exemple un suréchantillonnage, une interpolation, un filtrage, etc. À l’issue de la transformation, une carte de caractéristiques transformée du second groupe est de même résolution que les images de la séquence d’entrée. Avantageusement selon ce mode, les cartes de caractéristiques qui sont codées peuvent être de résolution inférieure à celle des images à coder, alors que les cartes du second groupe, qui servent à la construction des vecteurs caractéristiques, sont à la même résolution que la séquence d’images, ce qui facilite l’extraction des valeurs.

Dans un mode de réalisation, le module SE est absent, dans ce cas les valeurs qui serviront à construire le vecteur caractéristique sont extraites du premier groupe de cartes de caractéristiques.

Le module XTR réalise une extraction de valeurs dans les cartes de caractéristiques FMi (et/ou FMS_iet/ou FME_l,selon l’un des modes de réalisation décrits précédemment), pour un échantillon courant P_nà coder, en fonction de ses coordonnées dans le signal d’entrée. Par exemple, si l’on cherche à coder l’échantillon P_naux coordonnées (x_n, y_n) d’une image d’entrée, le module XTR réalise une extraction de valeurs dans les cartes à des positions imposées par les coordonnées (x_n, y_n).

Dans un mode de réalisation, les valeurs extraites constituent le vecteur Z_n. Z_nest un J-uplet, c’est-à-dire qu’il comporte J éléments, ou données z_i. Le vecteur Z_nd’indice n réfère au vecteur caractéristique du pixel P’_n.

Dans un mode de réalisation, le module TT, optionnel, réalise un traitement des valeurs extraites, pour générer le vecteur Z_n. Le module TT peut réaliser une quantification des données extraites de l’ensemble de cartes de caractéristiques. Le traitement peut comporter d’autres opérations, comme un filtrage, une mise à l’échelle, etc. En particulier, si le module SE n’est pas utilisé et si les cartes de caractéristiques du premier groupe sont à des résolutions inférieures à celle des images de la séquence, le module TT peut prendre en compte les coordonnées des valeurs dans les cartes de résolutions inférieures.

On notera que l’un au moins des modules SE ou TT doit effectuer une quantification des cartes de caractéristiques.

Le module MLP est un réseau de neurones de synthèse défini par K paramètres W_k, apte à traiter le vecteur Z_n, ou J-Uplet, en entrée, pour générer en sortie un second vecteur représentatif de l’échantillon P_nà coder. Le réseau de neurones de synthèse est selon un mode de réalisation un MLP, ou Multi Layer Perceptron, constitué d’une couche d’entrée adaptée au format d’entrée (le J-uplet), optionnellement une ou plusieurs couche(s) cachée(s), et une couche de sortie adaptée au format de sortie du vecteur de sortie, de manière générale un vecteur comportant A éléments. Selon un mode de réalisation, A est égal à 3 et le vecteur de sortie est le triplet (R, G, B) du pixel P’_ncodé puis décodé.

Le module NNC réalise le codage du réseau de neurones de synthèse, notamment de ses paramètres W_k.Optionnellement, le module NNC réalisele codage du réseau de neurones de prédiction, ARM, notamment de ses paramètres O_b.Durant le processus d’entraînement, ou de construction, du codage, c’est-à-dire tant que l’étape d’évaluation d’une performance n’est pas satisfaisante, le module NNC réalise une simulation de codage, suivi d’un décodage, à destination du module d’évaluation. Par la suite, il effectue le codage effectif des paramètres du réseau de neurones de synthèse W_k,et optionnellementle codage du réseau de neurones de prédiction, ARM. Les paramètres codés sont notés Wc_ket Oc_b. De manière connue, la simulation de codage peut être identique au codage effectif, ou en réaliser une approximation.

Le module FMC réalise le codage des cartes FM_i, c’est-à-dire des valeurs des cartes de caractéristiques du premier groupe (à l’exclusion des cartes supplémentaires FME_l,et des cartes du second groupe, résultant optionnellement d’un suréchantillonnage par le module SE). Durant le processus d’entraînement, ou de construction, du codage, c’est-à-dire tant que l’étape d’évaluation d’une performance n’est pas satisfaisante, le module FMC réalise une simulation de codage, suivi d’un décodage, à destination du module d’évaluation. Par la suite, il effectue le codage effectif des valeurs des cartes FM_i. Les cartes codées sont notées FMc_i. De manière connue, la simulation de codage peut être identique au codage effectif, ou en réaliser une approximation. Le module de codage quantifie si nécessaire la représentation latente des valeurs des cartes du premier groupe en utilisant un quantificateur pour générer une collection ordonnée de valeurs quantifiées. Puis le module de codage compresse les données quantifiées, en utilisant un codage prenant en compte le voisinage d’une valeur à coder de la carte de caractéristiques. Comme il sera détaillé plus loin, le module FMC peut comprendre un réseau de neurones de prédiction (ARM).

Le module EVAL réalise une évaluation et minimisation d’une performance de codage. La fonction d’évaluation est par exemple de type débit-distorsion. La minimisation peut être effectuée par une descente de gradient, ou tout autre procédé à la portée de l’homme du métier.

Le module MAJ réalise une mise à jour des valeurs des cartes FM_ià encoder, en fonction des résultats de la fonction de performance.

La représente schématiquement un dispositif de décodage DEC.

Le dispositif de codage DEC de la reçoit en entrée un premier groupe de données encodées organisées en M cartes de caractéristiques FMc_i(dites aussi couches FM) et les paramètres encodés Wc_kdu réseau de neurones de synthèse MLP’, optionnellement les paramètres encodés Oc_bdu réseau de neurones de synthèse ARM’.

Ce dispositif de décodage DEC comprend un module NND de décodage de réseau(x) de neurones apte à décoder le réseau de neurones de synthèse MLP’ et optionnellement le réseau de neurones de prédiction ARM', un module FMD de décodage des cartes de caractéristiques, un module XTR’ d’extraction de données, un module SE’ de transformation inverse, un module TT’ de traitement et quantification inverse, un module MLP’ correspondant à un réseau de neurones de synthèse, un module FME’ de génération de cartes de caractéristiques supplémentaires. Selon un mode de réalisation, il produit en sortie une image décodée, notée I (Pd_n), comportant une pluralité d’échantillons décodés Pd_n.

Les cartes décodées par le module FMD, au nombre de M, sont notées FMd_i. Les paramètres du réseau de neurones de synthèse (MLP’) décodés par le module NND sont notés Wd_k. Les paramètres du réseau de neurones de prédiction (ARM’) décodés par le module NND sont notés Od_b.

Le module FME’ du décodeur peut aussi générer une ou plusieurs cartes supplémentaires, notées FME’_l, au nombre de L, identiques aux cartes supplémentaires FME_lgénérées par le codeur.

Dans un mode de réalisation, le module SE’ réalise une transformation du premier groupe de cartes de caractéristiques FMd_idécodées pour générer un second groupe de cartes de caractéristiques à la même résolution que le signal à décoder, notées FMS’_i. Le module SE’ effectue optionnellement une quantification inverse correspondant à la quantification effectuée au codeur. La quantification inverse n’est pas nécessaire si le quantificateur Q du codeur a réalisé un simple arrondi des valeurs réelles qui lui sont soumises. La quantification inverse n’est pas nécessaire non plus si le réseau de neurones est apte à prendre en compte une quantification de ses données d’entrée. Sinon, le décodeur réalise l’opération inverse du quantificateur Q. Puis le module SE’ effectue une transformation des valeurs des cartes de caractéristiques, comprenant par exemple un suréchantillonnage, une interpolation, un filtrage, etc., similaire à celle effectuée par le codeur. À l’issue de la transformation, une carte de caractéristiques transformée du second groupe est de même résolution que les images de la séquence à décoder.

Dans un mode de réalisation, le module SE’ est absent, dans ce cas les valeurs qui serviront à construire le vecteur caractéristique sont extraites du premier groupe de cartes de caractéristiques.

Le module XTR’ est identique au module XTR de la . Il réalise une extraction de valeurs des M cartes de caractéristiques FMd_i,(et/ou FMS’_iet/ou FME’_l, selon l’un des modes de réalisation décrits précédemment), pour un échantillon Pd_nà décoder, en fonction de ses coordonnées dans le signal à décoder. Dans un mode de réalisation, J=M. Dans un mode de réalisation, J=M+L.

Dans un mode de réalisation, les valeurs extraites constituent le vecteur Zd_n. Zd_nest un J-uplet, c’est-à-dire qu’il comporte J éléments, ou données zd_i.

Dans un mode de réalisation, le module TT’, optionnel, réalise un traitement des valeurs extraites, pour générer le vecteur Zd_n. Le module TT’ peut réaliser une quantification inverse des données extraites de l’ensemble de cartes de caractéristiques. Le traitement peut comporter d’autres opérations, comme un filtrage, une mise à l’échelle, etc., similaires à ceux effectués par le codeur.

Le module MLP’ est un réseau de neurones dit de synthèse, défini par K paramètres Wd_k, apte à traiter le vecteur Zd_n, ou J-Uplet, en entrée, pour générer en sortie un second vecteur représentatif de l’échantillon P_nà décoder, de manière générale un vecteur comportant A éléments. Selon un mode de réalisation, K=3 et le vecteur de sortie est le triplet (R, G,B) du pixel Pd_ndécodé. Le module MLP’ est de structure identique au module MLP, et ses paramètres sont soit identiques si le codage de ses paramètres W_kest sans perte, soit différents si le codage est réalisé avec pertes.

Lorsque tous les échantillons P_ndu signalont été décodés, on dispose d’un signal reconstruit I (Pd_n), selon un exemple une image I comportant N échantillons décodés sous la forme de N vecteurs Pd_n.

Le dispositif de décodage DEC peut être mis en œuvre au moyen d’un dispositif électronique comprenant un processeur et une mémoire, non représentés ; chacun des modules mentionnés ci-dessus peut alors être réalisé par la coopération du processeur et d’instructions de programme d’ordinateur mémorisées dans la mémoire susmentionnée et conçues pour effectuer les fonctionnalités du module concerné, notamment comme décrit ci-dessous, lorsque ces instructions sont exécutées par le processeur

La illustre un exemple de réseau de neurones artificiels de synthèse utilisé au codage et au décodage dans le cadre de modes de réalisation de l’invention.

Le réseau de neurones artificiels de synthèse utilisé au codage, MLP, et le réseau de neurones artificiels de synthèse utilisé au décodage, MLP’, sont définis par une structure identique, comprenant par exemple une pluralité de couches de neurones artificiels, et par un ensemble de poids et fonctions d’activation associés respectivement aux neurones artificiels du réseau concerné.

Une représentation vectorielle d’un échantillon courant (un vecteur Z_nou Zd_nissu des cartes de caractéristiques FM_i/FMS_iet FME_lau codeur ou FMd_i/FMS’_iet FME’_lau décodeur) est appliquée en entrée (c’est-à-dire sur une couche d’entrée) du réseau de neurones artificiels de synthèse MLP ou MLP’. Le réseau de neurones artificiels de synthèse produit en sortie un vecteur, selon un mode de réalisation les composantes de couleur (R, G, B) constitutives d’un pixel couleur d’une image.

La concaténation de tous ces pixels reconstruits dans une image (2D, 3D) constitue l’image décodée, ou reconstruite.

Au codeur, le réseau de neurones artificiels de synthèse MLP est entraîné sur l’image, de sorte à minimiser les différences entre la représentation en entrée de l’image courante I (P_n) et sa représentation I (P’_n) en sortie, tout en minimisant également la quantité de données à encoder. Le module EVAL effectue une mesure de performance en ce sens.

Une fois que l’entraînement du codeur est terminé, les paramètres du réseau sont encodés, soit sans pertes, auquel cas le réseau de neurones MLP’ est identique à MLP, soit avec pertes, auquel cas le réseau MLP’ peut être légèrement différent de MLP.

La illustre un exemple de réseau de neurones artificiels de prédiction utilisé au codage (ARM) et au décodage (ARM’) pour les cartes de caractéristiques, dans le cadre de modes de réalisation de l’invention.

Le réseau de neurones artificiels de prédiction utilisé au codage, ARM, et le réseau de neurones artificiels de prédiction utilisé au décodage, ARM’, sont définis par une structure identique, comprenant par exemple une pluralité de couches de neurones artificiels, et par un ensemble de poids et fonctions d’activation associés respectivement aux neurones artificiels du réseau concerné.

Une représentation vectorielle d’un voisinage courant (un vecteur C_nou Cd_nissu des cartes de caractéristiques FM_i/FMS_iet FME_lau codeur ou FMd_i/FMS’_iet FME’_lau décodeur) est donnée en entrée (c’est-à-dire sur une couche d’entrée) du réseau de neurones artificiels de prédiction ARM (au codage) ou ARM’(au décodage).

Le réseau de neurones artificiels de prédiction se comporte comme une fonction qui produit en sortie une prédiction de la valeur courante de la carte de caractéristiques en cours de traitement, qui peut se présenter sous forme d’une valeur de prédiction ou de données de probabilité.

Selon un mode de réalisation, au codeur, le réseau implémente une fonction f_ѱqui fournit une moyenne et/ou une variance (µ,σ) attendues pour la valeur courante de la valeur courante V_nde la carte FM_ià coder. Ces valeurs statistiques sont utilisées pour réaliser le codage entropique de cette valeur. Par exemple, si la fonction produit une moyenne, cette moyenne est soustraite à la valeur courante et seule la différence est codée entropiquement, cette moyenne étant considérée comme une prédiction de la valeur courante. Alternativement, si la fonction produit une moyenne et une variance, la moyenne est soustraite de la valeur courante, et la différence est codée à l’aide d’un codage entropique adapté à la variance, par exemple en quantifiant ladite variance en un ensemble prédéterminé de variances et en associant un type de codage entropique à chaque valeur de variance quantifiée. Au décodeur, le réseau implémente une fonction f_ѱqui fournit une moyenne et/ou une variance attendues pour la valeur courante de la valeur courante Vd_nde la carte FMd_ià décoder. Ces valeurs statistiques sont utilisées pour réaliser le décodage entropique de cette valeur. Par exemple, si la fonction produit une moyenne, la valeur courante est décodée par le décodeur entropique et cette moyenne est additionnée à la valeur courante. Alternativement, si la fonction produit une moyenne et une variance, la valeur courante est décodée par le décodeur à l’aide d’un décodage entropique adapté à la variance, par exemple en quantifiant ladite variance en un ensemble prédéterminé de variances et en associant un type de décodage entropique à chaque valeur de variance quantifiée.

Selon un autre mode de réalisation, le réseau de neurones peut produire la probabilité attendue (pr) de chaque valeur possible de l’échantillon courant. Dans ce cas, le codage ou décodage entropique sera adapté à cette probabilité (comme il est connu pour le codage entropique de Huffman ou arithmétique).

Au codeur, le réseau de neurones artificiels de prédiction ARM est entraîné sur l’image, de sorte à minimiser la quantité de données à encoder. Le module EVAL effectue une mesure de performance en ce sens. On rappelle que la mesure de performance globale porte sur une minimisation de la distorsion entre des images codées puis décodées I (P’_n) et les images d’entrée I (P_n), tout en minimisant le débit de codage. Selon un mode de réalisation, les cartes de caractéristiques sont encodées sans pertes, via un codage entropique. Dans ce cas, le codage des cartes de caractéristiques influe sur le débit, mais pas sur la distorsion des images codées. Selon un autre mode de réalisation, si les cartes de caractéristiques sont encodées avec pertes, le codage des cartes de caractéristiques influe sur le débit, mais aussi sur la distorsion.

Une fois que l’entraînement est terminé, les B paramètres Oc_bdu réseau sont encodés, soit sans pertes, auquel cas le réseau de neurones ARM’ est identique à ARM, soit avec pertes, auquel cas le réseau ARM’ peut être légèrement différent de ARM.

La est un logigramme représentant un exemple de procédé de codage qui peut être mis en œuvre par le dispositif de codage de la .

Selon ce mode de réalisation, le signal est une image bidimensionnelle, chaque échantillon à coder est donc un pixel P_nde coordonnées (x_n, y_n).

L’encodage se déroule en deux phases principales :

Dans une première phase, dite phase de construction, un apprentissage est réalisé, afin de déterminer, pour un signal d’entrée I (P_n), les valeurs des cartes FM_iet des paramètres W_ket optionnellement O_bpour optimiser une fonction de coût globale. L’apprentissage est par exemple réalisé par une descente de gradient, suivie d’une mise à jour des paramètres du réseau de neurones de synthèse MLP, des valeurs des cartes de caractéristiques FM_i, et optionnellement du réseau de neurones de prédiction ARM. Comme il est connu dans l’état de l’art, la fonction de coût peut être de type débit-distorsion, ou débit, ou distorsion, ou perceptuelle. Pour mesurer le débit R, il est nécessaire de simuler le codage des cartes FM_i, puis de mesurer le débit de codage associé (la taille du flux B1). Selon un mode de réalisation, on ne simule pas le codage des paramètres W_ket/ou O_bcar leur influence est moins importante que celle des cartes de caractéristiques. Selon un mode de réalisation, on simule aussi le codage des paramètres W_ket/ou O_bet on mesure le débit associé (la taille du flux B2). Pour mesurer la distorsion D, il est nécessaire de simuler le codage puis le décodage d’une partie au moins de l'image I, pour obtenir au moins un pixel P’_nrésultant d’une simulation de codage puis de décodage, puis de mesurer l'écart entre cette partie de l'image I (P_n) en entrée et une partie correspondante de l'image I (P’_n) codée puis décodée.

Puis lors d’une deuxième phase, dite phase de codage, les cartes FM_iet les paramètres W_ket éventuellement O_bsont encodés pour produire les valeurs codées FMc_iet Wc_k(et éventuellement Oc_b) avant transmission ou stockage. Ils constituent la représentation compressée du signal d’entrée I (P_n).

On va maintenant décrire les étapes d’un procédé selon un mode de réalisation de l’invention.

Lors d’une étape E20, un signal I (P_n) à coder, comportant une pluralité de N échantillons P_n, est fourni en entrée du procédé.

Lors d’une étape E21, les M cartes FM_idu premier groupe sont initialisées. Par la suite, les paramètres W_kdu réseau de neurones de synthèse MLP et les valeurs des cartes FM_i, et éventuellement les paramètres O_bdu réseau de neurones de prédiction doivent être optimisés durant la phase de construction.

Selon un mode de réalisation, les cartes FM_isont de même résolution que le signal d’entrée I (P_n) et comportent donc chacune le même nombre de valeurs N qu’il y a d’échantillons P_nà coder.

Selon un mode de réalisation, les cartes FM_isont de résolution inférieure ou égale à celle du signal d’entrée I (P_n) et comportent donc, pour au moins l’une d’entre elles, un nombre N’ de valeurs à coder inférieur à N. Selon une variante, la première carte FMi est à la résolution des images et chaque carte suivante est à une résolution moitié de la précédente.

Selon un mode de réalisation, plusieurs cartes FMi sont de même résolution, inférieure à celle du signal d’entrée I (P_n).

Selon un mode de réalisation, les cartes FM_isont transformées pour fournir un second groupe de cartes de caractéristiques transformées FMS_i. Dans ce mode, les vecteurs caractéristiques sont extraits de préférence des cartes transformées du second groupe, et non directement des cartes du premier groupe. Dans ce mode, les vecteurs caractéristiques sont donc extraits indirectement des cartes du premier groupe. Les cartes du second groupe ne sont pas codées, elles servent uniquement à la construction des vecteurs caractéristiques.

Selon un mode de réalisation, les cartes FM_isont initialisées par des valeurs constantes prédéfinies.

Selon un autre mode de réalisation, les cartes de caractéristiques sont initialisées par un ensemble de valeurs réelles aléatoires.

Selon un mode de réalisation, une ou plusieurs cartes FME_l,formant un groupe supplémentaire de L cartes de caractéristiques supplémentaires, sont générées, et ajoutées au premier groupe. Elles servent à la construction du vecteur caractéristique mais ne sont ni stockées ni transmises.

Les cartes de caractéristiques FM_idu premier groupe sont par la suite mises à jour, ou raffinées, lors d’une étape E22,par le module de mise à jour MAJ du codeur au cours de son apprentissage.

Lors d’une étape E23, les cartes FM_idu premier groupe sont codées par le module FMC du codeur. Durant la phase de construction, cette opération est une simulation de codage. Durant la phase de codage, cette opération est un codage effectif et les valeurs codées constituent le flux B1. La simulation peut être identique au codage effectif mais elle peut aussi être différente (par exemple, simplifiée). Pour ce codage, on utilise une technique de prédiction d’une valeur de carte de caractéristiques par son voisinage, comme il sera décrit par exemple à l’appui de la . Dans un mode de réalisation, la structure et les paramètres O_bdu réseau de neurones de prédiction sont initialisés par exemple lors de la première itération de cette étape. Ces paramètres sont par la suite mis à jour, ou raffinés, au cours de la phase de construction, lors des itérations ultérieures du procédé.

Dans un mode de réalisation, les cartes FM_isont codées dans l’ordre (FM₁, FM₂,…, FM₄), et les variables de chaque carte dans un ordre prédéfini, par exemple lexicographique. Chaque carte subit un codage entropique. Le codage entropique produit un flux compressé B1 dont le débit est mesuré ultérieurement au cours d’une étape E29.

Lors d’une étape E24, selon un mode de réalisation, les M cartes du premier groupe FM_isont transformées par le module SE pour générer des cartes du second groupe FMS_ià la résolution des images de la séquence d’entrée.

Selon un mode de réalisation, M cartes FMS_isont générées.

Selon un mode de réalisation, chaque carte FM_iest transformée en une carte FMS_i.

Selon un mode de réalisation, au moins une carte FM_iest de résolution inférieure à celle des images de la séquence à coder et l’opération de transformation comporte un suréchantillonnage pour que la carte FMSi transformée comporte le même nombre d’échantillons que les images de la séquence. Le suréchantillonnage consiste à rajouter des valeurs dans les cartes FMS_ipour atteindre la résolution des images de la séquence d’entrée. Il peut être simple (par réplication du plus proche voisin) ou comporter une interpolation (linéaire, polynomiale, par filtrage, etc.).

Lors d’une étape E25, des valeurs sont extraites par le module XTR des cartes FM_iou éventuellement FMS_itransformées, et optionnellement FME_l.supplémentaires_.Cetteextraction est réalisée en fonction des coordonnées (x_n, y_n) de l’échantillon P_ndu signal d’entrée. Elle peut aussi être réalisée en fonction de la résolution de la carte considérée.

Selon un mode de réalisation, le vecteur Z_ncaractéristique résulte directement de cette extraction.

Les échantillons à coder sont par exemple traités par ordre séquentiel, de n=1 à n=N.

Selon un mode de réalisation, lors d’une étape E26, le vecteur Z_ncaractéristique est construit par le module TT à partir des valeurs extraites des cartes FM_iou FMS_iet optionnellement FME_lpour chaque échantillon P_nde coordonnées (x_n, y_n) du signal d’entrée. Le traitement peut comporter une quantification des valeurs extraites des cartes FM_iou du vecteur Z_nconstitué, si nécessaire. Le traitement peut comporter d’autres opérations, comme un filtrage, une mise à l’échelle, l’application d’une fonction quelconque, de préférence monotone, etc.

Dans un mode de réalisation, Z_ncomporte autant de valeurs que de cartes FMi ou FMS_i(et optionnellement FME_l) en entrée. Dans ce cas on a J=M (+L).

Dans un mode de réalisation, Z_nest un J-uplet (z₁, z₂,…, z_J), constitué des valeurs des cartes FM_iou FMS_i(et optionnellement FME_l) situées aux coordonnées (x_n, y_n) du pixel courant P_n,comme il sera illustré à l’appui de la .

Dans un mode de réalisation, Z_nest un J-uplet construit à partir de valeurs prélevées dans les cartes FMi (et optionnellement FME_l) à des coordonnées qui peuvent être différentes selon les cartes. Par exemple, si les cartes FM_i(et/ou FME_l) sont à des résolutions différentes parce qu’elles ont été sous-échantillonnées, les cordonnées sont adaptées (par une mise à l’échelle) pour correspondre à la résolution de chaque carte.

Dans un mode de réalisation, Z_nest un J-uplet construit à partir de valeurs prélevées dans les cartes FM_i(et optionnellement FME_l) en appliquant le traitement à une ou plusieurs valeurs des cartes, par exemple un filtrage des valeurs voisines de la valeur ciblée dans une carte. Par exemple, pour un échantillon courant P_ndans une carte FMi qui se trouve à la même résolution que le signal d’entrée, on peut extraire les valeurs situées aux coordonnées (x_n, y_n), (x_n-1, y_n), (x_n, y_n-1) et (x_n-1, y_n-1) et appliquer un traitement à ces valeurs (filtrages, moyennage, interpolation, etc.) pour obtenir la valeur finale (z_i) de l’élément i du vecteur Z_nrelative à cette carte FM_iou FME_l. Selon un autre exemple, dans une carte FM_iqui se trouve à une résolution moitié du signal d’entrée, on peut considérer les valeurs situées aux coordonnées (x_n/2, y_n/2), (x_n/2-1, y_n/2), (x_n/2, y_n/2-1) et (x_n/2-1, y_n/2-1) et appliquer un traitement à ces valeurs (filtrages, moyennage, interpolation, etc.) pour obtenir la valeur finale (z_i) de l’élément i du vecteur Z_nrelative à cette carte FM_iou FME_l.

Lors d’une étape E27, le vecteur Z_nest traité par le réseau de neurones de synthèse MLP pour générer en sortie un vecteur représentatif de l’échantillon P_nà coder, selon un mode de réalisation le triplet (R, G,B) de l’échantillon P’_n(l’échantillon P_ncodé puis décodé).

La structure et les paramètres W_kdu réseau de neurones de synthèse sont initialisés par exemple lors de la première itération de cette étape. Ces paramètres sont par la suite mis à jour, ou raffinés, au cours de la phase de construction, lors des itérations ultérieures du procédé.

Selon un mode de réalisation, les paramètres du réseau de neurones de synthèse et/ou du réseau de neurones de prédiction sont initialisés par des valeurs prédéfinies connues pour donner un résultat satisfaisant (par exemple, à la suite d’un entraînement sur un corpus d’images).

Selon un autre mode de réalisation, les paramètres du réseau de neurones de synthèse et/ou du réseau de neurones de prédiction sont initialisés par un ensemble de valeurs aléatoires.

Lors d’une étape E28,les paramètres W_kdu réseau de neurones de synthèse MLP et les paramètres O_bdu réseau de neurones de prédiction ARM, s’il existe, sont quantifiés et codés. Durant la phase de construction, cette opération est une simulation de codage. Durant la phase de codage, cette opération est un codage effectif et les valeurs codées constituent le flux B2. La simulation peut être identique au codage effectif mais elle peut aussi être différente (par exemple, simplifiée). On peut utiliser à cette fin toute technique connue, par exemple la norme de codage de réseaux de neurones proposée par le standard MPEG-7 partie 17, aussi appelée NNR (Neural Network Representation). On notera que dans ce cas, il faut choisir la quantité de dégradation que le codage apporte aux poids W_ket optionnellement O_b.

Lors d’une étape E29, une mesure de performance est évaluée.

À cet effet, les débits de simulation de codage associés aux cartes de caractéristiques du premier groupe (simulation du flux B1 par codage des cartes FM_i) et optionnellement aux paramètres du (des) réseau(x) de neurones (simulation du flux B2 par codage des paramètres W_ket optionnellement O_b) sont mesurés.

Selon un mode de réalisation, la fonction de coût est de type débit-distorsion, notée (D+L*R), où D par exemple l’erreur quadratique mesurée entre le signal d’entrée et le signal décodé (ou l’erreur mesurée sur un sous-ensemble d’échantillon du signal). Selon un autre exemple, D est calculé à partir d’une fonction perceptive telle que le SSIM (pourStructural SIMilarity), ou MSSSIM (pourMulti-scale Structural SIMilarity). Selon un mode de réalisation, R est le débit simulé du flux B1 ; selon un autre mode de réalisation, R est le débit total utilisé pour coder cette image, c’est-à-dire la somme des débits simulés de B1 et B2. L un paramètre qui règle le compromis débit-distorsion. D’autres fonctions de coût sont possibles.

Tant que la fonction de coût n’a pas atteint son minimum, la mesure de performance n’est pas satisfaisante, et le procédé est réitéré à partir de l’étape E22. Cette minimisation peut être effectuée par un mécanisme connu comme une descente de gradient avec mise à jour des paramètres au cours de l’étape E22 pour les valeurs des cartes de caractéristiques et E23, E27 pour les paramètres du ou des réseau(x).

Lors d’une étape EF, si la fonction de coût a atteint son minimum, l’entraînement s’arrête. Si une version codée correspondant à la dernière simulation des paramètres du réseau de neurones de synthèse (W_k) et des cartes de caractéristiques (FM_i) est disponible, les flux B1 et B2 peuvent en être constitués. Selon un autre mode de réalisation, le codage effectif les paramètres mis à jour du réseau de neurones de synthèse (W_k) et des valeurs des cartes de caractéristiques (FM_i) et optionnellement du réseau de neurones de prédiction (O_b) est effectué à cette étape pour produire les paramètres encodés Wc_k(optionnellement O_b)et FMc_iqui constituent des flux B1 etB2. Les flux B1 et B2 peuvent être concaténés pour produire un flux final. Selon un mode de réalisation, le flux B2 des paramètres codés du (des) réseau(x) de neurones est (sont) stocké(s) ou transmis avant le flux B1, afin de pouvoir être décodé(s) avant le flux B1.

La représente de manière illustrée un procédé de codage utilisé dans un mode de réalisation de l’invention.

Dans ce mode de réalisation, les cartes FM_igénérées sont au nombre de 4. Dans un mode préféré, elles sont au nombre de 7.

La première carte FM₁a la même résolution que l’image I (P_n), et comporte donc WxH variables, où W représente la largeur de l’image en pixels, et H sa hauteur. La seconde carte FM₂est de résolution moitié (dans chaque dimension) de la carte FM₁. Chaque carte supplémentaire est de résolution moitié de la carte précédente. Cette structure permet de réduire le nombre de variables des cartes de caractéristiques ce qui facilite le codage et l’apprentissage tout en minimisant le coût de codage.

La carte FM₂est suréchantillonnée par le module SE d’un facteur 2 dans chaque dimension, selon un procédé illustré à l’appui de la . La carte FM₃est suréchantillonnée d’un facteur 4 dans chaque dimension, et la carte FM₄d’un facteur 8 dans chaque dimension.

Les cartes FMS_irésultantes sont de même résolution que l’image I (P_n), et comportent donc chacune WxH valeurs, où W représente la largeur de l’image en pixels et H sa hauteur (N=WxH).

Selon ce mode de réalisation, les couches FMS_isont quantifiées par le module SE.

D’autres types de structure sont possibles, par exemple on peut utiliser un taux de réduction différent d’un demi entre les cartes (un quart, ou un tiers, etc.).

Selon une variante présentée en pointillés, les cartes de caractéristiques sont au nombre de 5 : une carte supplémentaire FME₀a été introduite, qui ne sera ni codée ni transmise. Cette carte supplémentaire comporte typiquement des données qui peuvent assister le réseau MLP dans la tâche de reconstruction du signal. Ainsi, les cartes ajoutées peuvent être une ou plusieurs parmi la liste suivante, non limitative :

– Une carte comportant en chaque point l’abscisse de ce point.

– Une carte comportant en chaque point l’ordonnée de ce point.

– Une carte comportant en chaque point un codage positionnel (comme décrit par exemple à l’adresse Internet https://skosmos.loterre.fr/P66/fr/page/-K0D65X2X-X).

– Une carte représentant une image distincte de l’image en cours de traitement, susceptible d’apporter des informations sur l’image à coder, par exemple l’image précédemment traitée si l’image courante fait partie d’une série d’images à coder comme une vidéo, un ensemble d’images médicales, une représentation multivues, etc.

– Une carte représentant une carte de caractéristiques d’une image distincte de l’image en cours de traitement susceptible d’apporter des informations sur l’image à coder, par exemple une carte précédemment traitée si l’image courante fait partie d’une série d’images à coder comme une vidéo, un ensemble d’images médicales, une représentation multi-vues, etc.

– Une carte comportant la valeur d’un échantillon déjà décodé de la même carte, par exemple l’échantillon précédent dans l’ordre de décodage.

Dans ce mode de réalisation, le vecteur Z_nest un 4-uplet (z₁...z₄) constitué des valeurs extraites des cartes FMS_isituées aux coordonnées (x_n, y_n) du pixel courant P_n. Le vecteur Z_nconstitué des valeurs extraites (quantifiées) des cartes FMS_iest traité par le réseau de neurones de synthèse MLP pour générer en sortie un second vecteur, selon l’exemple le vecteur de sortie est le triplet (R, G,B) du pixel P’_ncodé puis décodé. Le triplet est inséré dans l’image décodée I (P’_n) aux positions (x_n, y_n) des composantes couleur (R’, G’, B’).

Dans un autre mode de réalisation, non représenté, le vecteur Z_nest extrait directement des couches FMi, aux positions recalculées en fonction de la taille des cartes, puis les valeurs extraites sont éventuellement traitées et quantifiées après extraction.

Selon la variante présentée en pointillés, le vecteur Z_nest un 5-uplet (z₀...z₄), la valeur z₀étant extraite de la carte supplémentaire FME₀.

La est un logigramme représentant un exemple de procédé de décodage qui peut être mis en œuvre par le dispositif de décodage de la .

Lors d’une étape E30, les flux B1 et B2 sont extraits du flux encodé. Ils contiennent respectivement les représentations codées des cartes du premier groupe FMc_iet des paramètres Wc_k, optionnellement des paramètres Oc_b.

Lors d’une étape E31, les M cartes FMd_isont générées par décodage des valeurs FMc_i. Pour ce décodage, on utilise une technique de prédiction d’une valeur de carte de caractéristiques par son voisinage, comme il sera décrit par exemple à l’appui de la . . Dans un mode de réalisation, les cartes FMd_isont décodées dans l’ordre (FMd₁, FMd₂,… FMd₄), et les valeurs de chaque carte dans un ordre prédéfini, par exemple lexicographique.

Selon des modes de réalisation tels que décrits pour le codeur :

- Les cartes FMd_isont de même résolution que le signal I (Pd_n) à reconstituer, c’est-à-dire qu’elles comportent N valeurs.

- Les cartes FMd_isont à une résolution inférieure ou égale à celle du signal I (Pd_n) à reconstituer.

- Plusieurs cartes FMd_isont de même résolution, inférieure à la résolution du signal.

Lors d’une étape E32, selon un mode de réalisation, une ou plusieurs cartes FME’_l,formant ungroupe supplémentaire de L cartes de caractéristiques supplémentaires, sont générées et complètent le premier groupe. Elles ne sont pas décodées mais générées par le décodeur de manière identique à la génération du codeur. Elles comportent typiquement des données qui peuvent assister le réseau MLP’ dans la tâche de reconstruction du signal. La liste non limitative de cartes de caractéristiques supplémentaires possibles décrite à l’appui de la pour le codeur s’applique ici.

Lors d’une étape E33, selon un mode de réalisation, les M cartes du premier groupe FMd_isont transformées par le module SE’ pour générer des cartes du second groupe FMS’_ià la résolution des images d’entrée. Cette étape est similaire à l’étape E24 qui a été décrite pour le codeur à l’appui de la , et les modes de réalisation s’appliquent. Notamment :

Selon un mode de réalisation, M cartes FMS’_isont générées.

Selon un mode de réalisation, chaque carte FMd_iest transformée en une carte FMS_i.

Selon un mode de réalisation, au moins une carte FMd_iest de résolution inférieure à celle des images de l’image à coder et l’opération de transformation comporte un suréchantillonnage pour que la carte FMS’i transformée comporte le même nombre d’échantillons que l’image d’entrée. Le suréchantillonnage consiste à rajouter des valeurs dans les cartes FMS’_ipour atteindre la résolution de l’image d’entrée. Il peut être simple (par réplication du plus proche voisin) ou comporter une interpolation (linéaire, polynomiale, par filtrage, etc.)

La transformation peut optionnellement comporter une quantification inverse des valeurs extraites, si nécessaire. Cependant la quantification inverse n’est pas obligatoire.

Lors d’une étape E34, des valeurs sont extraites par le module XTR’ des cartes FMd_iou éventuellement FMS’_itransformées, et optionnellement FME’_lsupplémentaires_.Cetteextraction est réalisée en fonction des coordonnées (x_n, y_n) d’un échantillon P_ndu signal d’entrée. Elle peut aussi être réalisée en fonction de la résolution de la carte considérée. Cette étape est similaire à l’étape E25 qui a été décrite pour le codeur à l’appui de la , et les modes de réalisation s’appliquent. Notamment :

Selon un mode de réalisation, le vecteur Zd_ncaractéristique résulte directement de cette extraction.

Dans un mode de réalisation, Zd_nest un J-uplet (z₁, z₂,…, z_J), constitué des valeurs des cartes FMdi ou FMS’_i(et optionnellement FME’_l) situées aux coordonnées (x_n, y_n) d’un pixel courant Pd_n,comme il sera illustré à l’appui de la .

Les échantillons à décoder sont par exemple traités par ordre séquentiel, de n=1 à n=N.

Selon un mode de réalisation, lors d’une étape E35, un vecteur Zd_nest construit par le module TT’ à partir des valeurs extraites des cartes FMd_idu premier groupe ou des cartes FMS’_idu second groupe et éventuellement FME’_ldu groupe supplémentaire, pour chaque échantillon Pd_nde coordonnées (x_n, y_n) à décoder, en fonction des coordonnées (x_n, y_n). Cette étape est similaire à l’étape E26 qui a été décrite pour le codeur à l’appui de la et les modes de réalisation décrits s’appliquent. L’extraction peut comporter une quantification inverse des valeurs extraites ou du vecteur Zd_nconstitué, si nécessaire.

Lors d’une étape E36,les paramètres Wd_kdu réseau de neurones de synthèse MLP’ et éventuellement les paramètres Od_bdu réseau de neurones de prédiction sont générés par décodage des valeurs Wc_ket Oc_bdu flux B2. On peut utiliser à cette fin toute technique connue de décodage correspondant à celle de codage qui a été utilisée par le codeur. Le réseau de neurones de synthèse MLP’ est semblable au réseau de synthèse MLP, c’est-à-dire qu’il est de même structure et comporte les mêmes paramètres, au codage près, qui peut être réalisé avec ou sans pertes. De même, le réseau de neurones de prédiction ARM’, s’il est utilisé pour décoder les cartes de caractéristiques, est semblable au réseau de prédiction ARM, c’est-à-dire qu’il est de même structure et comporte les mêmes paramètres, au codage près, qui peut être réalisé avec ou sans pertes.

Selon un mode de réalisation, le flux B2 est décodé avant le flux B1, afin de pouvoir disposer du réseau de neurones de synthèse MLP’ et éventuellement du réseau de neurones de prédiction ARM’ avant de commencer à décoder les échantillons.

Lors d’une étape E37, le vecteur Zd_nest traité par le réseau de neurones de synthèse MLP' pour générer en sortie un second vecteur représentatif de l’échantillon Pd_nà décoder, selon un mode de réalisation un triplet qui est injecté dans l’image décodée I (Pd_n) aux positions (x_n, y_n) des composantes couleur (Rd, Gd, Bd). Cette étape est similaire à l’étape E27 qui a été décrite pour le codeur à l’appui de la .

Lorsque tous les échantillons du signal ont été traités, le signal décodé correspondant par exemple à l’image I (Pd_n) est disponible.

Dans ce mode de réalisation, les cartes décodées FMd_isont au nombre de 4. Dans un mode préféré, elles sont au nombre de 7.

Dans ce mode de réalisation, la première carte FMd₁a la même résolution que l’image I, et comporte donc WxH variables, où W représente la largeur de l’image en pixels, et H sa hauteur. La seconde carte FMd₂est de résolution moitié (dans chaque dimension) de la carte FMd₁. Chaque carte supplémentaire est de résolution moitié de la carte précédente. Cette structure permet de réduire le nombre de variables des cartes de caractéristiques ce qui facilite le décodage tout en minimisant le coût de codage.

La carte FMd₂est suréchantillonnée d’un facteur 2 dans chaque dimension, selon tout procédé de suréchantillonnage à la portée de l'homme du métier. La carte FMd₃est suréchantillonnée d’un facteur 4 dans chaque dimension, et la carte FMd₄d’un facteur 8 dans chaque dimension.

Les cartes FMS’_isont de même résolution que l’image à décoder, et comportent donc WxH valeurs, où W représente la largeur de l’image en pixels, et H sa hauteur.

Dans ce mode de réalisation, le vecteur Zd_nest un 4-uplet (z₁...z₄) constitué des valeurs des cartes FMS’_isituées aux coordonnées (x_n, y_n) du pixel courant Pd_n. Le vecteur Zd_nest optionnellement déquantifié puis traité par le réseau de neurones de synthèse MLP’ pour générer en sortie le triplet (R, G, B) représentatif de l’échantillon Pd_nà décoder. Le triplet (R, G, B) est inséré dans l’image décodée I (Pd_n) aux coordonnées (x_n, y_n) dans les composantes couleur (Rd, Gd, Bd).

Selon une variante présentée en pointillés, les cartes sont au nombre de 5 : une carte supplémentaire FME’₀a été introduite. Dans ce mode de réalisation, le vecteur Zd_nest un 5-uplet.

Ces étapes constituent des sous-étapes de l’étape E23 décrite précédemment à l’appui de la . Elles ont pour but de coder une valeur courante V_nd’une carte de caractéristiques FM_idu premier groupeen cours de traitementen utilisant des valeurs du voisinage.

Lors d’une sous-étape E231, un vecteur de voisinage (C_n) est établi, comprenant des valeurs voisines de la valeur V_n.Comme il sera illustré ultérieurement à l’appuides figures 11 et 12, ces valeurs voisines peuvent être situées dans la même carte ou/et dans une carte différente de la pluralité M de cartes FM_i.Ce vecteur de voisinage est constituéd’un nombre C de valeurs, ou données, correspondant à des valeurs de voisinage (par exemple, C=10). Ces valeurs doivent être connues du codeur et du décodeur, elles doivent donc se situer dans un voisinage causal de la valeur V_n.

Selon un premier mode de réalisation, ces valeurs sont utilisées pour déterminer le contexte d’un codeur entropique pour coder la valeur courante lors d’une étapeE234. Ce codeur peut être un codeur de type CABAC (Context-adaptive binary arithmetic coding). Ce type de codeur est bien connu de l’homme du métier. Il est notamment utilisé dans la norme de compression vidéo H.265/HEVC. Il s'agit d'un codeur arithmétique dont la compression est sans perte. Il décompose tous les symboles non-binaires en symboles binaires. Puis, pour chaque bit, le codeur sélectionne le modèle de probabilité le plus adapté et utilise un contexte pour optimiser l'estimation de la probabilité. Ce contexte peut être défini par des informations des éléments voisins. Un codage arithmétique est ensuite appliqué pour compresser les données résultantes. Comme il est connu de l’homme du métier, il y a plusieurs façons d’utiliser le vecteur de voisinage pour produire une information de contexte. Par exemple, on peut compter le nombre de valeurs voisines différentes de zéro, et associer un contexte à chaque nombre. Alternativement, on peut effectuer des comparaisons entre plusieurs valeurs voisines, et associer un contexte donné à une configuration d’ordre entre les valeurs voisines, par exemple en classant les valeurs voisines par ordre croissant, et en associant un contexte à chaque ordre possible.

Dans un deuxième mode de réalisation, le voisinage est utilisé pour prédire, au cours d’une étape E232,la valeur courante à partir d’un modèle autorégressif. On rappelle qu’un modèle autorégressif prédit un échantillon d’une série par ses valeurs passées. Dans ce mode, les valeurs passées sont constituées par le contexte, et la différence entre la variable prédite et la valeur réelle est quantifiée puis codée de manière entropique au cours de l’étape E234.

Dans un troisième mode réalisation, comme illustré à l’appui de la , un réseau de neurones de prédiction ARM est utilisé au cours de l’étape E233 pour prédire les caractéristiques statistiques de la variable à coder. Le vecteur de voisinage est donné en entrée du réseau ARM, pour fournir en sortie une prédiction de la valeur courante. Selon un mode de réalisation, le réseau ARM se comporte comme une fonction f_ѱtelle que décrite à l’appui de la , qui fournit un ensemble de paramètres statistiques (moyenne, variance, médiane, etc.) utilisées pour coder la valeur courante de manière entropique. Le rôle de ce module ARM est de prédire au mieux la valeur courante, pour l’ensemble des valeurs V_nà coder des cartes FM_i, afin de réduire le débit nécessaire au codage des cartes de caractéristiques. Selon un autre mode de réalisation, le réseau de neurones de prédiction ARM est utilisé pour produire la probabilité (pr) attendue de la valeur possible de l’échantillon courant. Le codage entropique est adapté à cette probabilité (comme il est connu pour le codage entropique de Huffman ou arithmétique).

Dans un quatrième mode de réalisation, chaque carte de caractéristiques est divisée en blocs de taille prédéterminée, et le codage de chaque bloc comporte une transformée (par exemple une DCT, Discrete, Cosine Transform, une transformée de Haar, etc.), et les valeurs transformées sont codées par un codage entropique.

Dans un cinquième mode de réalisation, chaque carte de caractéristiques est divisée en blocs de taille prédéterminée, et chaque bloc est représenté par un code produit de type Lattice Vector Quantization.

À l’issue du procédé, la valeur codée courante Vc_nde la carte FM_ien cours de traitementest codée.

La est un logigramme représentant une méthode de décodage de cartes de caractéristiques qui peut être mis en œuvre par le dispositif de décodage de la et par le procédé de décodage de la

Ces étapes constituent des sous-étapes de l’étape E31 décrite précédemment à l’appui de la . Elles ont pour but de décoder une valeur courante Vd_nd’une carte de caractéristiques FMd_idu premier groupeen cours de traitementen utilisant des valeurs du voisinage.

Lors d’une sous-étape E311, un vecteur de voisinage (Cd_n) est établi, comprenant des valeurs voisines de la valeur Vd_n.Cette étape est similaire à m’étape E231 précédemment décrite et les mêmes modes de réalisation s’appliquent.Ce vecteur de voisinage est constituéd’un nombre C de valeurs, ou données, correspondant à des valeurs de voisinage (par exemple, C=10) situées dans la même carte ou/et dans une carte différente de la pluralité M de cartes FMd_i. Ces valeurs se situant dans un voisinage causal de la valeur Vd_nsont connues du décodeur.

Selon un premier mode de réalisation, ces valeurs sont utilisées pour déterminer le contexte d’un décodeur entropique pour décoder la valeur courante lors d’une étape E314. Ce décodage est similaire à celui qui a été utilisé au codeur, par exemple CABAC. L’utilisation du voisinage pour produire une information de contexte est similaire à celle qui a été choisie au codeur. Par exemple, on peut compter le nombre de valeurs voisines différentes de zéro, et associer un contexte à chaque nombre. Alternativement, on peut effectuer des comparaisons entre plusieurs valeurs voisines, et associer un contexte donné à une configuration d’ordre entre les valeurs voisines, par exemple en classant les valeurs voisines par ordre croissant, et en associant à contexte à chaque ordre possible.

Dans un deuxième mode de réalisation, le voisinage est utilisé pour prédire au cours d’une étape E312 la valeur courante à partir d’un modèle autorégressif. Dans ce mode, les valeurs passées sont constituées par le contexte, et la différence entre la variable prédite et la valeur réelle est quantifiée puis codée de manière entropique au cours de l’étape E314.

Dans un troisième mode réalisation, comme illustré à l’appui de la , un réseau de neurones de prédiction ARM’ est utilisé à l’étape E313 pour prédire les caractéristiques statistiques de la variable à décoder. Le vecteur de voisinage est appliqué en entrée du réseau ARM’, pour fournir en sortie une prédiction de la valeur courante. Selon un mode de réalisation, le réseau ARM se comporte comme une fonction f_ѱtelle que décrite à l’appui de la , définie par un ensemble de paramètres statistiques (moyenne, variance, médiane, etc.) utilisées pour coder la valeur courante de manière entropique. Selon un autre mode de réalisation, le réseau de neurones de prédiction ARM’ est utilisé pour produire la probabilité (pr) attendue de la valeur possible de l’échantillon courant. Le décodage entropique est adapté à cette probabilité (comme il est connu pour le codage entropique de Huffman ou arithmétique). Le réseau ARM’ est identique au réseau ARM si le codage a été effectué sans perte.

Dans un quatrième mode de réalisation, chaque carte de caractéristiques est divisée en blocs de taille prédéterminée, et le décodage de chaque bloc comporte le décodage entropique de valeurs qui subissent ensuite une transformée inverse (par exemple une DCT inverse, Discrete, Cosine Transform, une transformée de Haar inverse, etc.).

Dans un cinquième mode de réalisation, chaque carte de caractéristiques est divisée en blocs de taille prédéterminée, et chaque bloc est décodé par un code produit de type Lattice Vector Quantization afin de produire le bloc décodé.

À l’issue du procédé, la valeur décodée courante Vd_nde la carte FMd_ien cours de traitement est décodée.

la représente de manière illustrée une méthode de codage ou de décodage de cartes de caractéristiques selon l’un des modes de réalisation.

Dans cette illustration, le codage (resp. décodage) de la valeur courante V_n(resp. Vd_n) située en coordonnées (x_n, y_n) dans la carte de caractéristiques courante FM₁(c’est-à-dire celle qui est en cours de codage ou de simulation de codage) (resp. FMd₁- c’est-à-dire celle qui est en cours de décodage) utilise l’information contextuelle de sa propre carte et de la carte précédente FM₂(resp. FMd₂). Les valeurs situées aux coordonnées (x_n, y_n-1), (x_n, y_n-2), (x_n-1, y_n-1), (x_n-1, y_n) ,(x_n-1, y_n+1) ,(x_n-2, y_n) dans la couche FM₁(resp. FMd₁), et les variables situées aux coordonnées (x_n-1, y_n-1), (x_n-1, y_n), (x_n-1, y_n+1), (x_n, y_n-1), (x_n, y_n), (x_n, y_n+1), (x_n+1, y_n-1), (x_n+1, y_n), (x_n+1, y_n+1) dans la couche FM₂(resp. FMd₂) sont utilisées pour déterminer le voisinage pour coder (resp. décoder) la valeur courante. Ces valeurs, qui sont toutes disponibles au codeur et au décodeur, constituent le vecteur de voisinage C_n(resp. Cd_n) de la variable V_n(resp. Vd_n) qui peut être utilisé dans l’un des modes de réalisation décrit précédemment à l’appui de la (resp. ).

La représente de manière illustrée une autre méthode de codage ou de décodage de cartes de caractéristiques selon l’un des modes de réalisation

Dans cette illustration, le codage (rep. décodage) de la valeur courante V_n(resp. Vd_n) située en coordonnées (x_n, y_n) dans la carte de caractéristiques courante FM_i(resp. FMd_i) utilise l’information contextuelle de sa propre carte. Les valeurs représentées en gris sont utilisées pour déterminer le voisinage pour coder (resp. décoder) la valeur courante. Ces valeurs, qui sont toutes disponibles au codeur et au décodeur, constituent le vecteur de voisinage C_n(resp. Cd_n) de la valeur V_n(resp. Vd_n) qui peut être utilisé dans l’un des modes de réalisation décrit précédemment à l’appui de la (resp. ).

Dans le mode de réalisation illustré, le vecteur de voisinage est extrait par un module CTX (resp. CTX’) du module de codage FMC (resp. FMD), puis il est appliqué à l’entrée du réseau de neurones de prédiction ARM (resp. ARM’), utilisé pour prédire les caractéristiques statistiques (µ,σ) ou la probabilité (pr) de la valeur à coder (resp. décoder) par le codeur entropique CE (resp. DE).

Claims

Procédé de codage d’un signal (I (P_n)) comprenant une pluralité d’échantillons (P_n) à coder comportant les étapes suivantes :
- une étape de construction, comportant les sous-étapes de :
- construction (E21, E22) d’un premier groupe de cartes de caractéristiques (FM_i) représentatives du signal (FM_i) ;
- pour au moins un échantillon, dit échantillon courant (P_n), du signal à coder, associé à une position (x_n, y_n) dans le signal à coder :
- construction (E25) d’un vecteur caractéristique (Z_n) à partir desdites cartes de caractéristiques (FM_i) dudit premier groupe, en fonction de ladite position (x_n, y_n) dudit échantillon courant (P_n) ;
- traitement (E27) dudit vecteur caractéristique (Z_n) par un réseau de neurones artificiels, dit réseau de neurones de synthèse, (MLP) défini par un ensemble de paramètres (W_k), pour fournir un vecteur (P’_n) représentatif d’une valeur décodée de l’échantillon courant ;
- mise à jour (E22, E27) d'au moins une valeur d’une desdites cartes de caractéristiques dudit premier groupe et/ou d’au moins un paramètre dudit réseau, en fonction d’une mesure de performance de codage,
- une étape de codage (E23, E27, EF) dudit premier groupe de cartes de caractéristiques (FM_i) comprenant, pour au moins une valeur, dite valeur courante (V_n), d’une desdites cartes de caractéristiques, un codage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- une étape de codage dudit ensemble de paramètres (W_k) dudit réseau de neurones de synthèse.
Procédé de codage selon la revendication 1, caractérisé en ce que l’étape de codage de ladite valeur courante (V_n) d’une desdites cartes de caractéristiques comprend les sous-étapes suivantes :
- construction (E231) d’un vecteur de voisinage (C_n) à partir desdites cartes de caractéristiques (FM_i) dudit premier groupe ;
- traitement (E233) dudit vecteur de voisinage (C_n) par un réseau de neurones artificiels, dit réseau de neurones de prédiction (ARM), défini par un ensemble de paramètres (O_b), pour fournir une prédiction de ladite valeur courante (V_n);
- mise à jour (E22, E23, E28) d’au moins un paramètre dudit réseau de prédiction, en fonction de la mesure de performance de codage,
- une étape de codage dudit ensemble de paramètres (O_b) dudit réseau de prédiction.
Procédé de codage d’une séquence d’images selon la revendication 1 ou 2, caractérisé en ce qu’il comporte une étape de transformation (E24) dudit premier groupe de carte de caractéristiques (FMi) pour obtenir un second groupe de cartes de caractéristiques (FMSi) à la résolution des images de la séquence d’entrée ;
et en ce que ledit vecteur caractéristique (Z_n) est construit à partir desdites cartes de caractéristiques transformées (FMS_i) du second groupe obtenues à partir desdites cartes de caractéristiques (FM_i) dudit premier groupe.
Procédé de codage selon la revendication 3, caractérisé en ce qu’une au moins desdites cartes de caractéristiques du premier groupe (FM_i) est de résolution inférieure à celle du signal à coder et en ce que l’opération de transformation comporte un suréchantillonnage.
Procédé de codage selon la revendication 1, caractérisé en ce que la construction dudit vecteur caractéristique (Z_n) comporte les sous-étapes suivantes :
- extraction d’une pluralité de valeurs desdites cartes de caractéristiques dudit premier groupe (FM_i) en fonction de ladite position (x_n, y_n) dudit échantillon courant (P_n) ;
- traitement desdites valeurs extraites pour obtenir le vecteur caractéristique.
Procédé de codage selon l’une des revendications précédentes, caractérisé en ce qu’il comporte une étape de construction (E21, E22) d’un groupe supplémentaire de cartes de caractéristiques (FME_l), et en ce que le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques du groupe supplémentaire.
Procédé de décodage d’un signal comprenant une pluralité d’échantillons (Pd_n) à décoder comportant les étapes suivantes :
- décodage (E31) d’un premier groupe de cartes de caractéristiques (FMd_i) représentatives du signal comprenant, pour au moins une valeur, dite valeur courante (V_n), d’une desdites cartes de caractéristiques, un décodage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- décodage (E35) d’un ensemble de paramètres (Wd_k) représentatifs d’un réseau de neurones (MLP’), dit réseau de neurones de synthèse ;
- pour au moins un échantillon, dit échantillon courant (Pd_n), du signal à décoder, associé à une position (x_n, y_n) dans le signal à décoder :
- construction (E34) d’un vecteur caractéristique (Zd_n) à partir des cartes de caractéristiques dudit premier groupe (FMd_i), en fonction de ladite position (x_n, y_n) dudit échantillon courant , et :
- traitement (E37) dudit vecteur (Zd_n) par le réseau de neurones de synthèse (MLP’) défini par les paramètres décodés (Wd_k) pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant (Pd_n).
Procédé de décodage selon la revendication 7, caractérisé en ce que l’étape de décodage de ladite valeur courante (V_n), d’une desdites cartes de caractéristiques comprend les sous-étapes suivantes ;
- décodage (E36) d’un ensemble de paramètres (Od_k) représentatifs d’un réseau de neurones, dit réseau de neurones de prédiction (ARM’) ;
- construction (E311) d’un vecteur de voisinage (C_n) à partir desdites cartes de caractéristiques (FM_i) dudit premier groupe ;
- traitement (E313) dudit vecteur de voisinage (C_n) par le réseau de neurones de prédiction (ARM’), pour fournir une prédiction de ladite valeur courante (V_n).
Procédé de décodage selon la revendication 7 ou 8, caractérisé en ce qu’il comporte une étape de transformation (E33) dudit premier groupe de cartes de caractéristiques décodées (FMdi) pour obtenir un second groupe de cartes de caractéristiques (FMS’_i) à la résolution du signal d’entrée ;
et en ce que ledit vecteur caractéristique (Zd_n) est construit à partir desdites cartes de caractéristiques transformées (FMS’_i) du second groupe obtenues à partir desdites cartes de caractéristiques décodées (FMd_i) dudit premier groupe.
Procédé de décodage selon la revendication 9, caractérisé en ce qu’une au moins desdites cartes de caractéristiques du premier groupe (FMd_i) est de résolution inférieure à celle du signal à décoder et en ce que l’opération de transformation comporte un suréchantillonnage.
Procédé de décodage selon l’une des revendications 7 à 10, caractérisé en ce que la construction dudit vecteur (Zd_n) caractéristique comporte une sous-étape d’extraction (E34) d’une valeur de ladite au moins une carte de caractéristiques (FMd_i,FME’_i) à une position identique (x_n, y_n) à celle de l’échantillon courant (Pd_n) dans le signal à décoder.
Procédé de décodage selon la revendication 7, caractérisé en ce que la construction dudit vecteur caractéristique (Zd_n) comporte les sous-étapes suivantes :
- extraction d’une pluralité de valeurs desdites cartes de caractéristiques dudit premier groupe (FMd_i) en fonction de ladite position (x_n, y_n) dudit échantillon courant (P_n) ;
- traitement (E35, TT’) desdites valeurs extraites pour obtenir le vecteur caractéristique.
Procédé de décodage selon l’une des revendications 7 à 12, caractérisé en ce qu’il comporte une étape de construction (E32) d’un groupe supplémentaire de cartes de caractéristiques (FME’_l) et en ce que le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques du groupe supplémentaire.
Dispositif de codage d’un signal (I (P_n)) comprenant une pluralité d’échantillons (P_n) à coder caractérisé en ce que ledit dispositif est configuré pour mettre en œuvre :
- construction (GEN, MAJ) d’un premier groupe de cartes de caractéristiques (FM_i) représentatives du signal (FM_i) ;
- pour au moins un échantillon, dit échantillon courant (P_n), du signal à coder, associé à une position (x_n, y_n) dans le signal à coder :
- construction (XTR) d’un vecteur caractéristique (Z_n) à partir desdites cartes de caractéristiques (FM_i) dudit premier groupe, en fonction de ladite position (x_n, y_n) dudit échantillon courant (P_n;
- traitement (MLP) dudit vecteur caractéristique (Z_n) par un réseau de neurones artificiels, dit réseau de neurones de synthèse, (MLP) défini par un ensemble de paramètres (W_k), pour fournir un vecteur (S_n) représentatif d’une valeur décodée (P’_n) de l’échantillon courant ;
- mise à jour (MAJ, NNC) d'au moins une valeur d’une desdites cartes de caractéristiques dudit premier groupe et/ou d’au moins un paramètre dudit réseau de synthèse, en fonction d’une mesure de performance de codage,
- une étape de codage (FMC) dudit premier groupe de cartes de caractéristiques (FM_i) comprenant, pour au moins une valeur, dite valeur courante (V_n), d’une desdites cartes de caractéristiques, un codage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- une étape de codage (NNC) dudit ensemble de paramètres (W_k) dudit réseau de neurones de synthèse.
Dispositif de décodage d’un signal comprenant une pluralité d’échantillons (Pd_n) à décoder caractérisé en ce que ledit dispositif est configuré pour mettre en œuvre :
- décodage (FMD) d’un premier groupe de cartes de caractéristiques (FMd_i) représentatives du signal comprenant, pour au moins une valeur, dite valeur courante (V_n), d’une desdites cartes de caractéristiques, un décodage entropique de ladite valeur en fonction d’une valeur au moins de son voisinage ;
- décodage (NND) d’un ensemble de paramètres (Wd_k) représentatifs d’un réseau de neurones (MLP’), dit réseau de neurones de synthèse ;
- pour au moins un échantillon, dit échantillon courant (Pd_n), du signal à décoder, associé à une position (x_n, y_n) dans le signal à décoder :
- construction (XTR’) d’un vecteur caractéristique (Zd_n) à partir des cartes de caractéristiques dudit premier groupe (FMd_i), en fonction de ladite position (x_n, y_n) dudit échantillon courant ;
- traitement (MLP’) dudit vecteur caractéristique (Zd_n) par le réseau de neurones de synthèse (MLP’) défini par les paramètres décodés (Wd_k) pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant (Pd_n).
Programme d’ordinateur comportant des instructions pour l’exécution des étapes d'un procédé de codage ou de décodage selon la revendication 1 ou 7 lorsque ledit programme est exécuté par un ordinateur.