WO2024121107A1 - Procédé et dispositif de codage et décodage d'images. - Google Patents

Procédé et dispositif de codage et décodage d'images. Download PDF

Info

Publication number
WO2024121107A1
WO2024121107A1 PCT/EP2023/084245 EP2023084245W WO2024121107A1 WO 2024121107 A1 WO2024121107 A1 WO 2024121107A1 EP 2023084245 W EP2023084245 W EP 2023084245W WO 2024121107 A1 WO2024121107 A1 WO 2024121107A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
characteristic
coding
decoding
decoded
Prior art date
Application number
PCT/EP2023/084245
Other languages
English (en)
Inventor
Felix Henry
Theo LADUNE
Pierrick Philippe
Gordon Clare
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2024121107A1 publication Critical patent/WO2024121107A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the invention relates to the general field of coding of single or multidimensional signals. It concerns more particularly the compression of digital images and video.
  • Digital images are generally subject to source coding aimed at compressing them in order to limit the resources necessary for their transmission and/or storage.
  • coding standards such as, for still images, the JPEG family standards, and for animated images or video, the standards of the ITU/MPEG organizations (H.264/AVC, H.265/ HEVC, H.266/VVC, etc.) as well as their extensions (MVC, SVC, 3D-HEVC, etc.)
  • Encoding an image is generally carried out by dividing the image into several rectangular blocks, and encoding these blocks of pixels according to a given processing sequence.
  • the processing of a block typically includes a prediction of the pixels of the block carried out using previously encoded and then decoded pixels present in the image being encoded, in which case we speak of " Intra prediction”, or previously encoded images, in which case we speak of “Inter prediction”.
  • Autoencoders are learning algorithms based on artificial neural networks, which make it possible to construct a new representation of a data set.
  • the architecture of an autoencoder is made up of two parts: the encoder and the decoder.
  • the encoder is made up of a set of layers of neurons, which process the data in order to construct new so-called “encoded” representations, also called “latent representations”.
  • the decoder's neuron layers receive these representations and filter them in an attempt to reconstruct the original data. The differences between the reconstructed data and the initial data make it possible to measure the error made by the autoencoder.
  • the training consists of modifying the parameters of the autoencoder in order to reduce the reconstruction error measured on the different samples of the dataset.
  • the performance of such autoencoder-based systems comes at the cost of a considerable increase in memory footprint and complexity compared to conventional approaches as proposed by compression standards. They can have millions of parameters and can require up to a million MACs (multiply-accumulate) to decode a pixel. This makes such decoders much more complex than conventional decoders, which could hinder the adoption of learning-based compression.
  • encoding means the operation which consists of representing a set of samples in a compact form carried for example by a digital binary stream.
  • decoding we mean the operation which consists of processing a digital binary stream to restore decoded samples.
  • sample of the signal, we mean a value taken from the signal. Sampling the signal produces a series of discrete values called samples. In the case of an image signal, the sample takes the pixel name which can for example be a color pixel traditionally represented by a triplet of values, for example (R, G, B) or (Y,U, V). Generally speaking, a sample is represented by a vector of one or more components, or data.
  • signal comprising a plurality of samples we mean a signal with one (audio, sound), two (image) or more than two (stereoscopic, multiscopic image, image associated with a depth map, video, etc.) dimensions. Depending on this dimensionality, the sample has one, two or more coordinates in the signal. In the case of an image signal, the position of the sample is identified by its coordinates on the abscissa (x) and ordinate (y).
  • feature maps we mean an abstract representation of the signal comprising a plurality of variable data, discrete or not, which are also called values, for example real or integer numbers. As is known, these maps are also referred to as “latent representation” of the input signal.
  • data characteristic vector constructed from characteristic maps as a function of a position is meant a vector consisting of one or more elements, or data, preferably discrete, the data being constructed from the maps features at a position determined by the position of the sample being processed in the signal.
  • This characteristic vector is the one that is applied to the input of the neural network.
  • a vector can be constituted from a plurality of values taken from each of the characteristic maps at the same coordinate as the sample to be encoded.
  • an image such a vector can be constituted from a plurality of values taken from each of the characteristic maps at the same coordinates on the abscissa and on the ordinate as the sample to be coded.
  • It can also be made up from a plurality of values taken from each of the characteristic maps at a position which depends not only on the position of the sample but also the size of the feature map. Once these values are taken from the feature maps, they can be processed to constitute the feature vector, before entering the neural network, for example by quantization, filtering, interpolation, etc.
  • neural network we mean a neural network such as a convolutional neural network, a multilayer perceptron, an LSTM (for “Long Short Term Memory” in English), etc.
  • performance measurement we mean a measurement between at least one value of a sample to be encoded and a decoded value of said sample.
  • the measurement can evaluate, for example, a distortion, or a perceptual error. It can be performed on one sample or a plurality of samples (for example, the complete image).
  • the measurement may also include a measurement of the flow, in particular associated with the coding of the neural network and/or the coding of the characteristic maps.
  • the measurement can be a joint measurement between the flow and the distortion through their weighting. As is well known in the state of the art, the value of this measurement is generally minimized until a target value is reached.
  • construction step we mean a step which aims to construct the parameters representative of the image, before their effective coding.
  • the construction substeps can be iterated as necessary to obtain an acceptable performance measure.
  • steps of a coding or decoding process should not be interpreted as being linked to a notion of temporal succession. In other words, the steps can be carried out in an order different from that indicated in the independent encoding or decoding claim, or even in parallel.
  • the training process makes it possible to refine the parameters of the neural network and/or the values of the feature maps until an adequate representation in terms of performance is obtained, for example a desired balance between the generated flow and the distortion suffered by the input signal.
  • the training of the values of the feature maps and the parameters of the neural network can be joint.
  • the coding method according to the invention makes it possible to effectively compress the signal.
  • the decoding process is simple since it suffices to decode the feature maps and the neural network to reconstruct a decoded version of the signal, for example an image.
  • Such a neural network can advantageously be very simple in structure with few parameters.
  • decoding can be carried out sample by sample, progressively.
  • the method comprises a step of constructing a second group of feature maps and the feature vector is further constructed from said feature maps. features.
  • these additional cards of the second group constructed in an identical manner to the encoder and the decoder, are neither stored nor transmitted at the level of the encoder, nor decoded at the level of the decoder. They thus make it possible to benefit from additional data to improve compression without degrading the throughput. They can for example include coordinates, data available in the cards of the first group, data concerning other images already processed by the encoder or decoder, etc.
  • At least one of the characteristic maps has a resolution lower than that of the signal to be encoded (resp. decode).
  • the compression of the characteristic maps is more effective since at least one of the characteristic maps has fewer values than if it were at the resolution of the signal.
  • one of the feature maps can be at 1/2 resolution, that is to say it has half as many values on the abscissa and ordinate as the input signal has samples, i.e. in total 4 times fewer values than a characteristic map at the signal resolution.
  • At least one of said characteristic maps has a resolution identical to that of the signal to be encoded (resp. decode).
  • at least one of the characteristic maps at the same resolution as the input signal (resp. to be decoded), allows significant fidelity and respect for the details of the initial resolution of the signal.
  • the construction of said characteristic vector comprises a sub-step of extracting a value from said at least one characteristic map at a position identical to that of the current sample in the signal.
  • the values extracted from the feature maps may for example correspond to quantification of the extracted data, or to scaling, or to filtering, etc.
  • quantification is essential for the proper functioning of the system if the characteristic maps include, for example, floating or real values. It is necessary to quantify them before coding them and/or providing them as input to the neural network.
  • inverse quantification is not necessary, depending on the embodiments.
  • the coding (resp. decoding) of said first group of feature maps comprises an entropic coding (resp. decoding) sub-step.
  • entropy coding makes it possible to exploit signal redundancies that may persist in the feature maps, thus the signal being compressed more efficiently.
  • the invention also relates to a coding device and a decoding device.
  • the invention also relates to a computer program on a recording medium, this program being capable of being implemented in a computer or a control device conforming to the invention.
  • This program includes instructions adapted to the implementation of the corresponding process.
  • This program may use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other desirable shape.
  • the invention also relates to an information medium or a recording medium readable by a computer, and comprising computer program instructions mentioned above.
  • Information or recording media can be any entity or device capable of storing programs.
  • the media may comprise a storage means, such as a ROM, for example a CD-ROM or a microelectronic circuit ROM, or even a magnetic recording means, for example a floppy disk or a hard disk, a DNA sequence, or flash memory.
  • the Information or recording media may be transmissible media such as an electrical or optical signal, which may be carried via an electrical or optical cable, by radio link, by wireless optical link or by other means.
  • the program according to the invention can in particular be downloaded onto an Internet type network.
  • each information or recording medium may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of a method according to the invention.
  • Figure 1 schematically represents a coding device used in the context of the invention
  • Figure 2 schematically represents a decoding device used in the context of the invention
  • Figure 3 illustrates an example of a synthetic artificial neural network used in the context of the invention for coding and decoding
  • Figure 4 is a flowchart representing an example of a coding method which can be implemented by the coding device of Figure 1;
  • Figure 5 illustrates a coding method used in one embodiment of the invention
  • Figure 6 illustrates a coding method used in another embodiment of the invention
  • Figure 7 is a flowchart representing an example of a decoding method which can be implemented by the decoding device of Figure 2;
  • FIG. 8 illustrates a decoding method used in one embodiment of the invention. Description of embodiments
  • Figure 1 schematically represents an ENC coding device.
  • This ENC coding device comprises a GEN module for generating characteristic maps, a TT module for processing and quantification, an XTR module for data extraction, an MLP module corresponding to an artificial neural network, an NNC module for neural network coding, an FMC module for coding characteristic maps, an EVAL module for evaluating a performance function, an MA J updating module, an optional FME module for generating additional characteristic maps .
  • the ENC coding device can be implemented by means of an electronic device comprising a processor and a memory, not shown; each of the modules mentioned above can then be produced by the cooperation of the processor and computer program instructions stored in the aforementioned memory and designed to carry out the functionalities of the module concerned, in particular as described below, when these instructions are executed by the processor.
  • the ENC coding device of Figure 1 receives as input a succession of samples to be coded, denoted P n , for example a temporal succession of sound samples, or a set of image data denoted I(P n ).
  • the image signal I(P n ) can represent a two-dimensional image, or a plurality of two-dimensional images (video, color components, stereoscopic, multiscopic components, etc.).
  • P n designates a sample n of the input signal comprising N samples.
  • the location of each pixel is defined by its abscissa and ordinate coordinates (x and y) in the image.
  • the image is grayscale represented using a two-dimensional representation, such as a matrix of pixels, each pixel comprising a grayscale component, or luminance. In this case the vector representative of the pixel is reduced to a single component, or data.
  • the GEN module for generating characteristic maps is configured to generate, and in particular initialize, a plurality of M characteristic maps denoted FMi.
  • the optional FME module can generate one or more additional cards, numbering L, which will be neither encoded nor transmitted, denoted FMEi.
  • the XTR module extracts values from the FMi and optionally FMEi characteristic maps, for a sample P n to be coded, according to its coordinates in the input signal.
  • the TT module processes the extracted values to generate the vector Z n .
  • Z n is a J-tuple, that is to say it contains J elements, or Zi data.
  • the vector Z n with index n refers to the characteristic vector of the pixel P' n .
  • the TT module quantifies the data extracted from this set of M FMi cards, or from the vector Z n constituted from these data.
  • the encoding system quantizes the latent representation of the input data using a quantizer Q to generate an ordered collection of quantized values.
  • the quantification of a value refers to the matching of this value with a member of a discrete set of possible code symbols.
  • the set of possible code symbols may consist of integer values, and the quantization system performs simple rounding from an actual value to an integer value.
  • quantification consists of multiplication by a given value then rounding.
  • the MLP module is a neural network defined by K parameters Wk, capable of processing the vector Z n , or J-Uplet, as input, to generate as output a second vector representative of the sample P n to be coded.
  • the neural network is, according to one embodiment, an MLP, or Multi Layer Perceptron, consisting of an input layer adapted to the input format (the J-tuple), optionally one or more hidden layer(s). ), and an output layer adapted to the output format of the output vector, generally a vector comprising A elements.
  • A is equal to 3 and the output vector is the triplet (R, G, B) of the pixel P'n encoded then decoded.
  • the NNC module carries out the coding of the neural network, in particular its Wk parameters.
  • the NNC module carries out a coding simulation, followed by 'a decoding, intended for the evaluation module. It updates the parameter values according to the results of a performance measurement carried out by the EVAL module. Subsequently, it carries out the effective coding of the parameters of the neural network Wk.
  • the encoded parameters are denoted Wck.
  • the coding simulation can be identical to the actual coding, or achieve an approximation of it.
  • the EMC module carries out the coding of the EMi cards, that is to say the quantified values of each card of the first group (excluding the FMEi cards).
  • the FMC module carries out a coding simulation, followed by 'a decoding, intended for the evaluation module. Subsequently, it carries out the actual coding of the values of the FMi cards.
  • the coded cards are denoted FMci.
  • the coding simulation can be identical to the actual coding, or achieve an approximation of it.
  • the coding module compresses the quantified data using, for example, entropy type coding.
  • the EVAL module carries out an evaluation and minimization of coding performance.
  • the evaluation function is for example of the flow-distortion type.
  • the minimization can be carried out by gradient descent, or any other method within the reach of those skilled in the art.
  • the MAJ module updates the values of the FMi cards to be encoded according to the results of the performance function. Optionally it can update the values of the additional FMEi cards.
  • Figure 2 schematically represents a DEC decoding device.
  • the DEC coding device of Figure 2 receives as input a first group of encoded data organized into M FMci characteristic maps (also called FM layers) and the encoded parameters Wck of the neural network
  • This DEC decoding device comprises an NND neural network decoding module, an FMD module for decoding characteristic maps, an XTR' data extraction module, a TT' inverse processing module, an MLP module 'corresponding to a neural network, an optional FME' module for generating additional feature maps.
  • the cards decoded by the FMD module, numbering M, are denoted FMdi.
  • the parameters decoded by the NND module are denoted Wdk.
  • the FME' module of the decoder can also generate one or more additional cards, denoted FME'i, in the number of L, identical to the additional cards FMEi generated by the encoder.
  • the module XTR ' is identical to the module of a J-tuple for a sample P n to be decoded, according to its coordinates in the signal to be decoded.
  • J M.
  • J M+L.
  • the module TT' optionally performs an inverse quantification corresponding to the quantification carried out at the encoder. Inverse quantification is not necessary if the quantizer Q of the encoder has simply rounded the real values submitted to it. Inverse quantification is not necessary if the neural network is able to take into account quantification of its input data. Otherwise, the decoder carries out the inverse operation of the quantizer Q. Furthermore, like the module TT of the encoder, the module TT' possibly carries out processing of the values extracted from the characteristic maps, to generate the decoded vector Zd n .
  • the MLP' module is a neural network defined by K parameters Wdk, capable of processing the vector Zd n , or J-Uplet, as input, to generate as output a second vector representative of the sample P n to be decoded , generally a vector comprising A elements.
  • A 3 and the output vector is the triplet (R, G, B) of the decoded pixel Pd n .
  • the MLP' module is identical in structure to the MLP module, and its parameters are either identical if the coding of its parameters Wk is lossless, or different if the coding is carried out with losses.
  • the DEC decoding device can be implemented by means of an electronic device comprising a processor and a memory, not shown; each of the modules mentioned above can then be produced by the cooperation of the processor and computer program instructions stored in the aforementioned memory and designed to carry out the functionalities of the module concerned, in particular as described below, when these instructions are executed by the processor.
  • Figure 3 illustrates an example of a synthetic artificial neural network used for coding and decoding in the context of embodiments of the invention.
  • the MLP synthesis artificial neural network for coding and the MLP' synthesis artificial neural network for decoding are defined by an identical structure, comprising for example a plurality of layers of artificial neurons, and by a set of weights and activation functions associated respectively with the artificial neurons of the network concerned.
  • a vector representation of a current sample (a vector Z n or Zd n from the characteristic maps FMi and FMEi or FMdi and FME'i) is applied as input (that is to say on a layer d 'input) of the MLP or MLP' synthesis artificial neural network.
  • the artificial neural network produces as output a vector P' n or Pd n representative of the decoded sample, according to one embodiment the color components (R, G, B) constituting a color pixel of an image.
  • the MLP synthesis artificial neural network is trained on the image, so as to minimize the differences between the input representation of the current image I(P n ) and its representation I(P' n ) as output, while also minimizing the amount of data to be encoded.
  • the EVAL module carries out a performance measurement in this sense.
  • the network parameters are encoded, either losslessly, in which case the MLP' neural network is identical to MLP, or lossy, in which case the MLP' network may be slightly different of MLP.
  • Figure 4 is a flowchart representing an example of a coding method which can be implemented by the coding device of Figure 1.
  • the signal is a two-dimensional image
  • each sample to be encoded is therefore a pixel P n with coordinates (x n , y n ).
  • a first phase learning is carried out in order to determine, for an input signal I(P n ), the values of the FMi maps and the Wk parameters to optimize a global cost function. Learning is for example carried out by gradient descent, followed by updating the parameters of the MLP neural network and the values of the FMi feature maps.
  • the cost function can be of the flow-distortion, or flow, or distortion, or perceptual type.
  • To measure the rate R it is necessary to simulate the coding of the FMi cards, then measure the associated coding rate (the size of the stream B 1).
  • the coding of the Wk parameters is not simulated because their influence is less important than that of the characteristic maps.
  • the coding of the parameters Wk is also simulated and the associated flow rate (the size of the flow B2) is measured.
  • the distortion D it is necessary to simulate the coding then the decoding of at least part of the image I, to obtain at least one pixel P' n resulting from a simulation of coding then decoding, then measure the difference between this part of the input image I(P n ) and a corresponding part of the image I(P' n ) encoded then decoded.
  • the FMi cards and the Wk parameters are encoded to produce the coded values FMci and Wck before transmission or storage. They constitute the compressed representation of the input signal I (P n ).
  • a signal I(P n ) to be coded comprising a plurality of N samples P n , is provided as input to the method.
  • the M FMi cards of the first group are initialized by the GEN module. Subsequently, the Wk parameters of the MLP neural network and the values of the FMi maps must be optimized during the construction phase.
  • the FMi cards have the same resolution as the input signal I(P n ) and therefore each include the same number of values N as there are samples P n to code.
  • the FMi cards have a resolution less than or equal to that of the input signal I(P n ) and therefore include, for at least one of them, a number N' of values to be coded less than N.
  • the first FMi card is at the resolution of the signal and each subsequent card is at half the resolution of the previous one. [83] According to one embodiment, several FMi cards are of the same resolution, lower than the resolution of the signal.
  • the FMi cards are initialized with predefined constant values.
  • the feature maps are initialized by a set of random real values.
  • one or more FMEi maps forming a second group of L additional feature maps, are generated and added to the first group. They are used to construct the characteristic vector but will neither be stored nor transmitted.
  • FMi characteristic maps of the first group are subsequently updated, or refined, during a step E22 by the MAJ update module of the encoder during its learning during the construction phase.
  • the FMi cards of the first group are coded by the FMC module of the encoder.
  • this operation is a coding simulation.
  • this operation is an effective coding and the coded values constitute the flow Bl.
  • the simulation can be identical to the effective coding but it can also be different (for example, simplified).
  • any known technique aimed at compressing the values of the cards can be used.
  • the FMi cards are coded in order (FMi, FM2,..., FM4), and the variables of each card in a predefined order, for example lexicographical.
  • Each card undergoes entropic coding.
  • the entropic coding produces a compressed stream Bl whose flow rate is measured subsequently during a step E28.
  • values are extracted by the XTR module from the FMi and possibly FMEi cards. This extraction is carried out as a function of the coordinates (x n , y n ) of the sample P n of the input signal.
  • the coordinate values (x n , y n ) of each card are extracted.
  • the coordinate values are scaled to extract lower resolution layers.
  • values close to those previously cited are also extracted for the subsequent processing of step E25.
  • a vector Z n is constructed by the module TT from the values extracted from the cards FMi and possibly Fme for each sample P n of coordinates (x n , y n ) of the input signal .
  • the processing includes quantification of the values extracted from the FMi maps, if necessary.
  • the processing may include other operations, such as filtering, scaling, application of any function, preferably monotonic, etc.
  • Z n is a J-tuple (zi, Z2,..., zj), consisting of the values of the FMi cards (and optionally FMEi) located at the coordinates (x n , y n ) of the current pixel P n , as will be illustrated in support of Figure 5.
  • the value located at the coordinates (x n , y n ) of the map FMi gives the final value (zi) of the element i of the vector Z n relating to this FMi or FMEi card.
  • the TT module does not apply any processing other than quantification.
  • Z n is a J-tuple constructed from values taken from the FMi maps (and optionally FMEi) at coordinates which may be different depending on the maps. For example, if the FMi (and/or FMEi) maps are at different resolutions because they have been downsampled, the coordinates are adapted (by scaling) to correspond to the resolution of each map, as will be illustrated in support of Figure 6.
  • Z n is a J-tuple constructed from values taken from the FMi (and FMEi) maps by applying processing to one or more values of the maps, for example filtering neighboring values of the targeted value in a map.
  • Z n is a J-tuple constructed from values taken from the FMi (and FMEi) maps by applying processing to one or more values of the maps, for example filtering neighboring values of the targeted value in a map.
  • a map that is at the same resolution as the input signal.
  • we can extract the values located at coordinates (x n , y n ), (x n -l, y n ), (x n , y n -l) and (x n -l, y n -l) and apply processing to these values (filtering, averaging, interpolation, etc.) to obtain the final value (zi) of element i of the vector Z n relating to this FMi or FMEi card.
  • an FMi card which is at half the resolution of the input signal
  • the vector Z n is processed by the MLP neural network to generate at output a vector representative of the sample P n to be coded, according to one embodiment the triplet (R, G, B) of the sample P' n (the sample P n encoded then decoded).
  • the structure and parameters Wk of the neural network are initialized for example during the first iteration of this step. These parameters are subsequently updated, or refined, during the construction phase, during subsequent iterations of the process.
  • the parameters of the neural network are initialized by predefined values known to give a satisfactory result (for example, following training on a corpus of images).
  • the parameters Wk of the neural network are initialized by a set of random values.
  • the parameters Wk of the MLP neural network are quantified and coded.
  • this operation is a coding simulation.
  • this operation is an effective coding and the coded values constitute stream B2.
  • the simulation can be identical to the actual coding but it can also be different (for example, simplified). Any known technique can be used for this purpose, for example the neural network coding standard proposed by the MPEG-7 part 17 standard, also called NNR (Neural Network Representation). Note that in this case, it is necessary to choose the amount of degradation that the coding brings to the Wk parameters.
  • a performance measure is evaluated.
  • the coding simulation rates associated with the characteristic maps are measured.
  • the cost function is of the rate-distortion type, denoted (D+L*R), where D is for example the square error measured between the input signal and the decoded signal ( or the error measured on a subset of the signal sample).
  • D is calculated from a perceptual function such as SSIM (for Structural SIMilarity), or MSSSIM (for Multi-scale Structural SIMilarity).
  • R is the simulated flow rate of flow B1; according to another embodiment, R is the total flow rate used to encode this image, that is to say the sum of the simulated flow rates of B 1 and B2.
  • L is a parameter that adjusts the flow-distortion trade-off. Other cost functions are possible.
  • step E22 As long as the cost function has not reached its minimum, the performance measurement is not satisfactory, and the process is repeated from step E22.
  • This minimization can be carried out by a mechanism known as gradient descent with updating of the parameters during step E22 for the values of the characteristic maps and E26 for the network parameters.
  • a step E29 if the cost function has reached its minimum, the training stops. If a coded version corresponding to the last simulation of the neural network parameters (Wk) and feature maps (FMi) is available, streams B1 and B2 can be made from it. According to another embodiment, the actual coding of the updated parameters of the neural network (Wk) and the values of the characteristic maps (FMi) is carried out at this step to produce the encoded parameters Wck and FMci which constitute streams B1 andB2.
  • Streams B1 and B2 can be concatenated to produce a final stream BS.
  • the stream B2 of the coded parameters of the neural network is stored or transmitted before the stream Bl, in order to be able to be decoded before the stream Bl.
  • Figure 5 illustrates an coding method used in one embodiment of the invention to encode an image I(P n ) (not shown).
  • the FMi cards there are 4 of the FMi cards. In a preferred mode, there are 7 of them.
  • an additional FMEo card has been introduced, which will be neither stored nor transmitted.
  • This additional card typically includes data that can assist the MLP network in the task of signal reconstruction.
  • the cards added can be one or more from the following, non-limiting list:
  • a map representing a map of characteristics of an image distinct from the image currently being processed capable of providing information on the image to be coded, for example a map previously processed if the current image is part of a series of images to be coded such as a video, a set of medical images, a multi-view representation, etc.
  • the vector Z n is a 4-tuple (Z1...Z4) consisting of the values extracted from the FMi maps located at the coordinates (x n , y n ) of the current pixel P n .
  • the extracted values are quantified by the TT module and the vector Z n consisting of the quantified values is processed by the MLP neural network to generate a second vector as output, according to the example a triplet (R, G, B) representative of the sample P n to code.
  • the output vector is in this case the triplet (R, G, B) of the pixel P' n encoded then decoded.
  • the triplet is inserted into the decoded image I(P' n ) at the positions (x n , y n ) of the color components (R', G', B').
  • the 4 FMi maps are quantized.
  • the vector Z n is a 5-tuple (Z0...Z4), the value zo being extracted from the additional map FMEO.
  • Figure 6 illustrates an coding method used in another embodiment of the invention.
  • the first FMi card has the same resolution as image I, and therefore has WxH values, where W represents the width of the image in pixels, and H its height.
  • the second FM2 card is half resolution (in each dimension) of the FMi card.
  • Each additional map is half resolution of the previous map.
  • a 4-tuple Z n is constructed from the values of the FMi maps located respectively at the coordinates (x n , y n ), (x n /2, y n /2), (x n /4, y n /4), (x n /8, y n /8) of the current pixel P n (x n , y n ). These extracted values are processed and quantified to generate the 4-tuple Z n .
  • the value located at the coordinates (x n /2, y n /2) is extracted to obtain the final value (Z2) of the vector Z n relating to this FM2 card.
  • the values located at the coordinates (x n /2, y n /2), (x n /2-1, y n /2), (x n /2) are extracted.
  • Oversampling is achieved in this way.
  • the filtering or oversampling can for example use bi-cubic filtering or Lanczos filtering, known per se.
  • a neural network can be used to produce the final value (Z2) by weighting the values located at the coordinates (x n /2, y n /2), (x n /2-1 , y n /2), (x n /2, y n /2- 1), (x n /2-1, y n /2-1), for example an MLP type network.
  • the vector Z n is processed by the MLP neural network to generate as output a second vector, here a triplet (R, G, B) representative of the sample P n to be coded.
  • the output vector is in this case the triplet (R, G, B) of the pixel P' n encoded then decoded.
  • the triplet (R, G, B) is reinjected into the decoded image at the positions (x n , y n ) of the color components (R', G', B') of the image I(p' n ).
  • Figure 7 is a flowchart representing an example of a decoding method which can be implemented by the decoding device of Figure 2.
  • the streams B 1 and B2 are extracted from the encoded stream BS. They respectively contain the coded representations of the maps of the first group FMci and the parameters Wc k .
  • the M FMdi cards are generated by decoding the FMci values. For this decoding, any known technique similar to that used in the encoder can be used, preferably entropic decoding. In one embodiment, the FMdi cards are decoded in order (FMdi, FMd2,... FMd4), and the variables of each card in a predefined order, for example lexicographical.
  • the FMdi cards have the same resolution as the signal I (Pd n ) to be reconstructed, that is to say they have N values.
  • the FMdi cards are at a resolution less than or equal to that of the signal I (Pd n ) to be reconstructed.
  • one or more FME'i maps forming a second group of L additional characteristic maps, are generated and complete the first group. They are not decoded but generated by the decoder in an identical manner to the generation of the encoder. They typically include data that can assist the MLP’ network in the task of reconstructing the signal.
  • FME'i maps are generated and complete the first group. They are not decoded but generated by the decoder in an identical manner to the generation of the encoder. They typically include data that can assist the MLP’ network in the task of reconstructing the signal.
  • step E33 values are extracted by the module XTR' from the FMdi and possibly FME'i cards. This extraction is carried out as a function of the coordinates (x n , y n ) of the input signal of the sample P n of the signal to be reconstructed.
  • This step is identical to step E24 which was described for the encoder in support of Figure 4 and the embodiments described apply.
  • a vector Zd n is constructed by the module TT' from the values extracted from the cards FMdi and possibly FME'i for a sample P n to be decoded with coordinates (x n , y n ) .
  • the processing may include inverse quantification of the extracted values or of the vector Zd n formed, if necessary. Processing may include other operations, such as filtering, scaling, etc.
  • This step is identical to step E25 which was described for the encoder in support of Figure 4 and the embodiments described apply. However, inverse quantification is not obligatory. In this particular case, step E34 and module TT' are therefore optional.
  • the parameters Wdk of the MLP' neural network are generated by decoding the values Wck of the flow B2.
  • any known decoding technique corresponding to the coding technique which was used by the encoder can be used.
  • the MLP' neural network is similar to the MLP network, that is to say it has the same structure and has the same parameters, except for coding, which can be produced with or without losses.
  • the stream B2 is decoded before the stream Bl, in order to be able to have the neural network before starting to decode the samples.
  • the vector Zd n is processed by the MLP' neural network to generate at output a second vector representative of the sample Pd n to be decoded, according to one embodiment a triplet which is injected in the decoded image I(Pd n ) at the positions (x n , y n ) of the color components (Rd, Gd, Bd).
  • This step is identical to step E26 which was described for the encoder in support of Figure 4.
  • Figure 8 illustrates a decoding method used in one embodiment of the invention to decode an image I(Pd n ).
  • the LMdi cards are of the same resolution as the image to be decoded, and therefore have variable WxH, where W represents the width of the image in pixels, and H its height.
  • the vector Zd n is a 4-tuple (Z1...Z4) consisting of the values of the LMdi maps located at the coordinates (x n , y n ) of the current pixel Pd n .
  • the vector Zd n is optionally dequantized then processed by the MLP' neural network to generate a second vector as output, according to the example a triplet (R, G, B) representative of the sample Pd n to be decoded.
  • the triplet (R, G, B) is reinjected into the decoded image I(Pd n ) at coordinates (x n , y n ) in the color components (Rd, Gd, Bd).
  • the vector Zd n is a 5-tuple.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un procédé et dispositif de codage et décodage d'un signal comprenant une pluralité d'échantillons (Pdn). Le procédé de décodage comporte les étapes suivantes : - décodage (E31, FMD) d'un premier groupe de cartes de caractéristiques (FMdi); - décodage (E35, NND) d'un ensemble de paramètres (Wdk) représentatifs d'un réseau de neurones (MLP'); - pour au moins un échantillon, dit échantillon courant (Pdn), du signal à décoder, associé à une position (xn, yn) dans le signal à décoder : - construction (E33, E34, XTR', TT') d'un vecteur caractéristique (Zdn) à partir des cartes de caractéristiques dudit premier groupe (FMdi), en fonction de ladite position (xn, yn) dudit échantillon courant, et : - traitement (E36, MLP') dudit vecteur caractéristique (Zdn) par un réseau de neurones artificiels (MLP') défini par les paramètres décodés (Wdk) pour fournir un vecteur représentatif d'une valeur décodée de l'échantillon courant (Pdn).

Description

Description
Titre de l'invention : Procédé et dispositif de codage et décodage d’images.
Technique antérieure
[1] L’invention se rapporte au domaine général du codage de signaux mono ou multidimensionnels. Elle concerne plus particulièrement la compression des images et vidéo numériques.
[2] Les images numériques font en général l’objet d’un codage source visant à les compresser afin de limiter les ressources nécessaires à leur transmission et/ou à leur stockage. Il existe de nombreux standards de codage, tels que, pour les images fixes, les standards de la famille JPEG, et pour les images animées, ou vidéo, les standards des organismes ITU/MPEG (H.264/AVC, H.265/HEVC, H.266/VVC, etc.) ainsi que leurs extensions (MVC, SVC, 3D- HEVC, etc.)
[3] L’encodage d’une image est généralement effectué en divisant l’image en plusieurs blocs rectangulaires, et en encodant ces blocs de pixels selon une séquence de traitement donnée. Dans les techniques existantes de compression vidéo, le traitement d’un bloc comprend typiquement une prédiction des pixels du bloc effectuée à l’aide de pixels précédemment codés puis décodés présents dans l’image en cours d’encodage, auquel cas on parle de « prédiction Intra », ou d’images précédemment codées, auquel cas on parle de « prédiction Inter ». Cette exploitation des redondances spatiales et/ou temporelles permet d’éviter de transmettre ou de stocker la valeur des pixels de chaque bloc de pixels, en représentant certains au moins des blocs par un résiduel représentant une différence entre les valeurs de prédiction des pixels du bloc et les valeurs réelles des pixels du bloc prédit.
[4] Les formats vidéo ne cessant d'évoluer pour compresser toujours davantage et s’adapter à la variété de formats attendus et des réseaux de communication, les possibilités de prédiction deviennent de plus en plus grandes et les algorithmes de codage et décodage classiques très complexes.
[5] En plus de ces approches classiques proposées par les normes de compression (JPEG, MPEG, ITU), les approches basées sur l’intelligence artificielle, et notamment neuronales, tendent à se développer. [6] Certaines de ces approches neuronales peuvent être vues comme une simple extension de la notion de compétition des techniques de compression susmentionnées, telles que la compétition de mode de prédiction et transformation en codage vidéo.
[7] D’autres approches utilisent le concept « d’auto-encodeur ». Les auto-encodeurs sont des algorithmes d’apprentissage à base de réseaux de neurones artificiels, qui permettent de construire une nouvelle représentation d’un jeu de données. L’architecture d’un auto-encodeur est constituée de deux parties : l’encodeur et le décodeur. L’encodeur est constitué par un ensemble de couches de neurones, qui traitent les données afin de construire de nouvelles représentations dites “encodées”, appelées aussi « représentations latentes ». À leur tour, les couches de neurones du décodeur reçoivent ces représentations et les filtrent afin d’essayer de reconstruire les données de départ. Les différences entre les données reconstruites et les données initiales permettent de mesurer l’erreur commise par l’auto-encodeur. L’entraînement consiste à modifier les paramètres de l’auto-encodeur afin de réduire l’erreur de reconstruction mesurée sur les différents échantillons du jeu de données. Les performances de tels systèmes à base d'auto-encodeur se font au prix d'une augmentation considérable de l'empreinte mémoire et de la complexité comparativement aux approches conventionnelles telles que proposées par les normes de compression. Ils peuvent avoir des millions de paramètres et peuvent nécessiter jusqu'à un million de MAC (multiplication-accumulation) pour décoder un pixel. Cela rend de tels décodeurs bien plus complexes que les décodeurs conventionnels, ce qui pourrait entraver l'adoption de la compression basée sur l'apprentissage.
[8] Plus récemment, une technique simple d’encodage fondé sur un réseau de neurones a été décrite dans l’article « Compression with Implicit Neural representations » d’Emilien Dupont ét al. (arXiv:2103.03123). La technique de codage proposée consiste à ajuster un réseau de neurones à une image, quantifier les poids du réseau et les transmettre. Au moment du décodage, le réseau de neurones est évalué à chaque position de pixel pour reconstruire l'image. Une telle technique reste cependant inefficace en termes de compression.
Il existe donc un besoin pour une solution permettant de coder/compresser une image ou une séquence d’images de manière simple et efficace.
Exposé de l’invention
[9] L’invention vise un procédé de codage selon la revendication 1 et un procédé de décodage selon la revendication 8. [10] Au sens de l’invention, on entend par encodage, ou « codage », l’opération qui consiste à représenter un ensemble d’échantillons sous une forme compacte portée par exemple par un train binaire numérique. On entend par décodage l’opération qui consiste à traiter un train binaire numérique pour restituer des échantillons décodés.
[11] Par « échantillon » du signal, on entend une valeur prélevée dans le signal. L’échantillonnage du signal produit une suite de valeurs discrètes nommées échantillons. Dans le cas d’un signal d’image, l’échantillon prend le nom de pixel qui peut être par exemple un pixel couleur représenté traditionnellement par un triplet de valeurs, par exemple (R, G, B) ou (Y,U,V). De manière générale, un échantillon est représenté par un vecteur d’une ou plusieurs composantes, ou données.
[12] Par « signal comprenant une pluralité d’échantillons », on entend un signal à une (audio, son), deux (image) ou plus de deux (image stéréoscopique, multiscopique, image associée à une carte de profondeur, vidéo, etc.) dimensions. En fonction de cette dimensionnalité, l’échantillon possède une, deux ou plusieurs coordonnées dans le signal. Dans le cas d’un signal d’image, la position de l’échantillon est repérée par ses coordonnées en abscisse (x) et ordonnée (y).
[13] Par « cartes de caractéristiques », on entend une représentation abstraite du signal comportant une pluralité de données variables, discrètes ou non, que l’on appelle aussi valeurs, par exemple des nombres réels ou entiers. De manière connue, ces cartes sont aussi désignées sous le terme de « représentation latente » du signal d’entrée.
[14] Par « vecteur caractéristique de données construit à partir des cartes de caractéristiques en fonction d’une position » on entend un vecteur constitué d’un ou plusieurs éléments, ou données, de préférence discrètes, les données étant construite à partir des cartes de caractéristiques à une position déterminée par la position de l’échantillon en cours de traitement dans le signal. Ce vecteur caractéristique est celui qui est appliqué à l’entrée du réseau de neurones. Par exemple, dans le cas d’un signal audio monodimensionnel, un tel vecteur peut être constitué à partir d’une pluralité de valeurs prélevées dans chacune des cartes de caractéristiques à la même coordonnée que l’échantillon à coder. Dans le cas d’une image, un tel vecteur peut être constitué à partir d’une pluralité de valeurs prélevées dans chacune des cartes de caractéristiques aux mêmes coordonnées en abscisse et en ordonnée que l’échantillon à coder. Il peut aussi être constitué à partir d’une pluralité de valeurs prélevées dans chacune des cartes de caractéristiques à une position qui dépend non seulement de la position de l’échantillon mais aussi de la taille de la carte de caractéristiques. Une fois que ces valeurs sont prélevées dans les cartes de caractéristiques, elles peuvent être traitées pour constituer le vecteur caractéristique, avant l’entrée dans le réseau de neurones, par exemple par une quantification, un filtrage, une interpolation, etc.
[15] Par « réseau de neurones », on entend un réseau neuronal tels un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc. Le réseau de neurones est défini par exemple par une pluralité de couches de neurones artificiels qui comportent un ensemble de fonctions d'activation, de pondération et d’addition (par exemple, une couche peut calculer y = f(Ax+b), où y et b sont des vecteurs de dimension N, x est un vecteur de dimension M, A est une matrice de dimension MxN, et f est la fonction d’activation). Par la suite on parle de « réseau de neurones » ou « réseau de neurones de synthèse ».
[16] Par « paramètre du réseau de neurones », on entend une des valeurs qui caractérise le réseau de neurones, par un exemple un poids associé à l’un des neurones (coefficient de filtre, pondération, biais, valeur affectant le fonctionnement de la non-linéarité), etc.
[17] Par « traitement par un réseau de neurones », on entend l’application d’une fonction exprimée par un réseau de neurones au vecteur caractéristique d’entrée pour produire un vecteur de sortie représentatif de l’échantillon à coder (resp. à décoder). Ce vecteur de sortie peut comporter une ou plusieurs données représentatives de l’échantillon.
[18] Par « mesure de performance », on entend une mesure entre au moins une valeur d’un échantillon à coder et une valeur décodée dudit échantillon. La mesure peut évaluer par exemple une distorsion, ou une erreur perceptive. Elle peut être effectuée sur un échantillon ou une pluralité d’échantillons (par exemple, l’image complète). La mesure peut comporter aussi une mesure du débit, notamment associé au codage du réseau de neurones et/ou au codage des cartes de caractéristiques. La mesure peut être une mesure conjointe entre le débit et la distorsion au travers de leur pondération. Comme il est bien connu de l’état de l’art, il est généralement procédé à une minimisation de la valeur de cette mesure jusqu’à atteindre une valeur cible.
[19] Par « étape de construction » on entend une étape qui vise à construire les paramètres représentatifs de l’image, avant leur codage effectif. Les sous-étapes de construction peuvent être réitérées autant que nécessaire pour obtenir une mesure de performance acceptable. [20] De manière générale, on considère que les étapes d’un procédé de codage ou décodage ne doivent pas être interprétées comme étant liées à une notion de succession temporelle. Autrement dit, les étapes peuvent être effectuées dans un ordre différent de celui indiqué dans la revendication indépendante de codage ou de décodage, voire en parallèle.
[21] Le procédé de codage selon l’invention réalise une construction des paramètres de codage, à partir du signal d’entrée, par exemple une image, en entraînant un réseau de neurones sur des vecteurs caractéristiques associés à une position d’un échantillon à coder. Ces vecteurs caractéristiques sont construits à partir de cartes de caractéristiques. Au cours de l’entraînement, ou construction, les paramètres du réseau de neurones et les valeurs des cartes de caractéristiques sont mis à jour en fonction d’une mesure de performance, par exemple de type débit-distorsion. Lorsque l’entraînement est terminé, c’est-à-dire que la mesure de performance obtenue est satisfaisante, le codage effectif des paramètres du réseau de neurones et/ou des valeurs des cartes de caractéristiques peut être effectué et mémorisé ou transmis à destination du décodeur.
[22] Avantageusement, le processus d’entraînement permet de raffiner les paramètres du réseau de neurones et/ou les valeurs des cartes de caractéristiques jusqu’à obtenir une représentation adéquate en termes de performance, par exemple un équilibre souhaité entre le débit généré et la distorsion subie par le signal d’entrée. L’entraînement des valeurs des cartes de caractéristiques et des paramètres du réseau de neurones peut être conjoint. Avantageusement, le procédé de codage selon l’invention permet de compresser efficacement le signal.
[23] Avantageusement, le procédé de décodage est simple puisqu'il suffit de décoder les cartes de caractéristiques et le réseau de neurones pour reconstituer une version décodée du signal, par exemple une image.
[24] Un tel réseau de neurones peut avantageusement être de structure très simple avec peu de paramètres.
[25] De surcroît, le décodage peut être effectué échantillon par échantillon, de manière progressive.
[26] Selon des modes de réalisation du procédé de codage et/ou de décodage :
[27] - Le procédé comporte une étape de construction d’un second groupe de cartes de caractéristiques et le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques. Avantageusement, ces cartes supplémentaires du second groupe, construites de manière identique au codeur et au décodeur, ne sont ni stockées ni transmises au niveau du codeur, ni décodées au niveau du décodeur. Elles permettent ainsi de bénéficier de données supplémentaires pour améliorer la compression sans dégrader le débit. Elles peuvent par exemple comprendre des coordonnées, des données disponibles dans les cartes du premier groupe, des données concernant d’autres images déjà traitées par le codeur ou décodeur, etc.
[28] - Une au moins des cartes de caractéristiques est de résolution inférieure à celle du signal à coder (resp. décoder). Avantageusement selon ce mode, la compression des cartes de caractéristiques est plus efficace puisque l’une au moins des cartes de caractéristiques comporte moins de valeurs que si elle était à la résolution du signal. Par exemple, dans le cas d’une image numérique, l’une des cartes de caractéristiques peut être à la résolution 1/2, c’est-à-dire qu’elle comporte deux fois moins de valeurs en abscisse et en ordonnée que le signal d’entrée comporte d’échantillons, soit au total 4 fois moins de valeurs qu’une carte de caractéristiques à la résolution du signal.
[29] - Une au moins desdites cartes de caractéristiques est de résolution identique à celle du signal à coder (resp. décoder). Avantageusement selon ce mode, l’une au moins des cartes de caractéristiques, à la même résolution que le signal d’entrée (resp. à décoder), permet une fidélité importante et le respect des détails de la résolution initiale du signal.
[30] - La construction dudit vecteur caractéristique comporte une sous-étape d’extraction d’une valeur de ladite au moins une carte de caractéristiques à une position identique à celle de l’échantillon courant dans le signal.
[31] Avantageusement, il est ainsi possible d’extraire une valeur d’une carte de caractéristique du premier ou du second groupe, à la même position que l’échantillon dans le signal (signal d’entrée pour le codage, signal à décoder pour le décodage), pour constituer un élément du vecteur caractéristique. Ce procédé est simple à mettre en œuvre. Par exemple, si l’on dispose de J cartes de caractéristiques en entrée, de même résolution que le signal, une simple extraction des valeurs des cartes aux coordonnées de l’échantillon courant (à la même abscisse et la même coordonnée dans la carte de caractéristiques) permet de construire directement le vecteur caractéristique de J éléments.
[32] - La construction dudit vecteur caractéristique comporte les sous -étapes suivantes :
- extraction d’une pluralité de valeurs des cartes de caractéristiques en fonction de ladite position dudit échantillon courant ;
- traitement desdites valeurs extraites pour obtenir le vecteur caractéristique.
[33] Avantageusement, il est possible de traiter les valeurs extraites des cartes de caractéristiques pour construire le vecteur caractéristique. Un tel traitement peut par exemple correspondre à une quantification des données extraites, ou à une mise à l’échelle, ou à un filtrage, etc. Au codage, la quantification est indispensable au bon fonctionnement du système si les cartes de caractéristiques comportent par exemple des valeurs flottantes, ou réelles. Il est nécessaire de les quantifier avant de les coder et/ou de les fournir en entrée du réseau de neurones. Au décodage en revanche, la quantification inverse n’est pas nécessaire, selon les modes de réalisation.
[34] - Le codage (resp. décodage) dudit premier groupe de cartes de caractéristiques comporte une sous-étape de codage (resp. décodage) entropique. Avantageusement, le codage entropique permet d’exploiter les redondances du signal qui peuvent persister dans les cartes de caractéristiques, le signal étant ainsi compressé plus efficacement.
[35] Corrélativement, l’invention vise aussi un dispositif de codage et un dispositif de décodage.
[36] Les caractéristiques et avantages du procédé de codage ou décodage s’appliquent de la même façon au dispositif de codage ou décodage selon l’invention et vice versa.
[37] L’invention vise également un programme d’ordinateur sur un support d’enregistrement, ce programme étant susceptible d’être mis en œuvre dans un ordinateur ou un dispositif de contrôle conforme à l’invention. Ce programme comporte des instructions adaptées à la mise en œuvre du procédé correspondant. Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.
[38] L’invention vise aussi un support d'information ou un support d’enregistrement lisible par un ordinateur, et comportant des instructions de programme d'ordinateur mentionné ci- dessus. Les supports d'information ou d’enregistrement peuvent être n'importe quel entité ou dispositif capable de stocker les programmes. Par exemple, les supports peuvent comporter un moyen de stockage, tel qu'une ROM, par exemple un CD-ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette ou un disque dur, une séquence d’ADN, ou une mémoire flash. D'autre part, les supports d'information ou d’enregistrement peuvent être des supports transmissibles tels qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par lien radio, par lien optique sans fil ou par d'autres moyens.
[39] Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
[40] Alternativement, chaque support d'informations ou d’ enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution d’un procédé conforme à l’invention.
Brève description des dessins
[41] D’autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent des exemples de réalisation dépourvus de tout caractère limitatif.
[Fig. 1] La figure 1 représente schématiquement un dispositif de codage utilisé dans le cadre de l’invention ;
[Fig. 2] la figure 2 représente schématiquement un dispositif de décodage utilisé dans le cadre de l’invention ;
[Fig. 3] la figure 3 illustre un exemple de réseau de neurones artificiels de synthèse utilisé dans le cadre de l’invention au codage et au décodage ;
[Fig. 4] la figure 4 est un logigramme représentant un exemple de procédé de codage qui peut être mis en œuvre par le dispositif de codage de la figure 1 ;
[Fig. 5] la figure 5 représente de manière illustrée un procédé de codage utilisé dans un mode de réalisation de l’invention ;
[Fig. 6] la figure 6 représente de manière illustrée un procédé de codage utilisé dans un autre mode de réalisation de l’invention ;
[Fig. 7] la figure 7 est un logigramme représentant un exemple de procédé de décodage qui peut être mis en œuvre par le dispositif de décodage de la figure 2 ;
[Fig. 8] la figure 8 représente de manière illustrée un procédé de décodage utilisé dans un mode de réalisation de l’invention. Description des modes de réalisation
[42] La figure 1 représente schématiquement un dispositif de codage ENC.
[43] Ce dispositif de codage ENC comprend un module GEN de génération de cartes de caractéristiques, un module TT de traitement et quantification, un module XTR d’extraction de données, un module MLP correspondant à un réseau de neurones artificiels, un module NNC de codage de réseau de neurones, un module FMC de codage des cartes de caractéristiques, un module EVAL d’évaluation d’une fonction de performance, un module MA J de mise à jour, un module FME optionnel de génération de cartes de caractéristiques supplémentaires.
[44] Le dispositif de codage ENC peut être mis en œuvre au moyen d’un dispositif électronique comprenant un processeur et une mémoire, non représentés ; chacun des modules mentionnés ci-dessus peut alors être réalisé par la coopération du processeur et d’instructions de programme d’ordinateur mémorisées dans la mémoire susmentionnée et conçues pour effectuer les fonctionnalités du module concerné, notamment comme décrit ci-dessous, lorsque ces instructions sont exécutées par le processeur.
[45] Le dispositif de codage ENC de la figure 1 reçoit en entrée une succession d’échantillons à coder, notés Pn, par exemple une succession temporelle d’échantillons sonores, ou un ensemble de données d’image noté I(Pn). Dans ce second cas, le signal d’image I(Pn) peut représenter une image bidimensionnelle, ou une pluralité d’images bidimensionnelles (vidéo, composantes de couleur, composantes stéréoscopiques, multiscopiques, etc.). Pn désigne un échantillon n du signal d’entrée comportant N échantillons. Dans un mode de réalisation, le signal est un signal d’image couleur représentée au moyen d’au moins une représentation bidimensionnelle, telle qu’une matrice de pixels, de largeur W et de hauteur H (avec N = WxH) chaque pixel comportant une composante rouge (R), verte (G), bleue (B), ou, en variante, une composante de luminance (Y) et au moins une composante de chrominance. L'emplacement de chaque pixel est défini par ses coordonnées en abscisse et ordonnée (x et y) dans l'image. Dans un mode de réalisation, l’image est en niveaux de gris représentée au moyen d’une représentation bidimensionnelle, telle qu’une matrice de pixels, chaque pixel comportant une composante de niveaux de gris, ou luminance. Dans ce cas le vecteur représentatif du pixel est réduit à une seule composante, ou donnée.
[46] Comme cela sera décrit plus en détail plus loin en référence aux figures 3 à 8 : [47] Le module GEN de génération de cartes de caractéristiques est configuré pour générer, et notamment initialiser, une pluralité de M cartes de caractéristiques notées FMi. Le module FME facultatif peut générer une ou plusieurs cartes supplémentaires, au nombre de L, qui ne seront ni codées ni transmises, notées FMEi.
[48] Le module XTR réalise une extraction de valeurs dans les cartes de caractéristiques FMi et optionnellement FMEi, pour un échantillon Pn à coder, en fonction de ses coordonnées dans le signal d’entrée.
[49] Le module TT réalise un traitement des valeurs extraites, pour générer le vecteur Zn. Zn est un J-uplet, c’est-à-dire qu’il comporte J éléments, ou données Zi. Le vecteur Zn d’indice n réfère au vecteur caractéristique du pixel P’n.
[50] Le module TT réalise une quantification des données extraites de cet ensemble de M cartes FMi, ou du vecteur Zn constitué à partir de ces données. Pour préparer le codage ultérieur (par exemple de type entropique), le système de codage quantifie la représentation latente des données d'entrée en utilisant un quantificateur Q pour générer une collection ordonnée de valeurs quantifiées. On rappelle que la quantification d'une valeur fait référence à la mise en correspondance de cette valeur avec un membre d'un ensemble discret de symboles de code possibles. Par exemple, l'ensemble de symboles de code possibles peut être constitué de valeurs entières, et le système de quantification réalise un simple arrondi d’une valeur réelle à une valeur entière. Selon un autre exemple, la quantification consiste en une multiplication par une valeur donnée puis un arrondi.
[51] Le module MLP est un réseau de neurones défini par K paramètres Wk, apte à traiter le vecteur Zn, ou J-Uplet, en entrée, pour générer en sortie un second vecteur représentatif de l’échantillon Pn à coder. Le réseau de neurones est selon un mode de réalisation un MLP, ou Multi Layer Perceptron, constitué d’une couche d’entrée adaptée au format d’entrée (le J- uplet), optionnellement une ou plusieurs couche(s) cachée(s), et une couche de sortie adaptée au format de sortie du vecteur de sortie, de manière générale un vecteur comportant A éléments. Selon un mode de réalisation, A est égal à 3 et le vecteur de sortie est le triplet (R, G, B) du pixel P’n codé puis décodé.
[52] Le module NNC réalise le codage du réseau de neurones, notamment de ses paramètres Wk. Durant le processus d’entraînement, ou de construction, du codage, c’est-à-dire tant que l’étape d’évaluation d’une performance n’est pas satisfaisante, le module NNC réalise une simulation de codage, suivi d’un décodage, à destination du module d’évaluation. Il met à jour les valeurs des paramètres en fonction des résultats d’une mesure de performance réalisée par le module EVAL. Par la suite, il effectue le codage effectif des paramètres du réseau de neurones Wk. Les paramètres codés sont notés Wck. De manière connue, la simulation de codage peut être identique au codage effectif, ou en réaliser une approximation.
[53] Le module EMC réalise le codage des cartes EMi, c’est-à-dire des valeurs quantifiées de chaque carte du premier groupe (à l’exclusion des cartes FMEi). Durant le processus d’entraînement, ou de construction, du codage, c’est-à-dire tant que l’étape d’évaluation d’une performance n’est pas satisfaisante, le module FMC réalise une simulation de codage, suivi d’un décodage, à destination du module d’évaluation. Par la suite, il effectue le codage effectif des valeurs des cartes FMi. Les cartes codées sont notées FMci. De manière connue, la simulation de codage peut être identique au codage effectif, ou en réaliser une approximation. Le module de codage compresse les données quantifiées en utilisant par exemple un codage de type entropique.
[54] Le module EVAL réalise une évaluation et minimisation d’une performance de codage. La fonction d’évaluation est par exemple de type débit-distorsion. La minimisation peut être effectuée par une descente de gradient, ou tout autre procédé à la portée de l’homme du métier.
[55] Le module MAJ réalise une mise à jour des valeurs des cartes FMi à encoder en fonction des résultats de la fonction de performance. Optionnellement il peut effectuer une mise à jour des valeurs des cartes supplémentaires FMEi.
[56] La figure 2 représente schématiquement un dispositif de décodage DEC.
[57] Le dispositif de codage DEC de la figure 2 reçoit en entrée un premier groupe de données encodées organisées en M cartes de caractéristiques FMci (dites aussi couches FM) et les paramètres encodés Wck du réseau de neurones
[58] Ce dispositif de décodage DEC comprend un module NND de décodage de réseau de neurones, un module FMD de décodage des cartes de caractéristiques, un module XTR’ d’extraction de données, un module TT’ de traitement inverse, un module MLP’ correspondant à un réseau de neurones, un module FME’ optionnel de génération de cartes de caractéristiques supplémentaires.
[59] Les cartes décodées par le module FMD, au nombre de M, sont notées FMdi. Les paramètres décodés par le module NND sont notés Wdk. [60] Le module FME’ du décodeur peut aussi générer une ou plusieurs cartes supplémentaires, notées FME’i, au nombre de L, identiques aux cartes supplémentaires FMEi générées par le codeur.
[61] Le module XTR’ est identique au module XTR de la figure 1. Il réalise une extraction de valeurs des M cartes de caractéristiques FMdi décodées, et éventuellement des L cartes supplémentaires FME’i, pour construire le vecteur Zn prenant la forme d’un J-uplet pour un échantillon Pn à décoder, en fonction de ses coordonnées dans le signal à décoder. Dans un mode de réalisation, J=M. Dans un mode de réalisation, J=M+L.
[62] Le module TT’ effectue optionnellement une quantification inverse correspondant à la quantification effectuée au codeur. La quantification inverse n’est pas nécessaire si le quantificateur Q du codeur a réalisé un simple arrondi des valeurs réelles qui lui sont soumises. La quantification inverse n’est pas nécessaire si le réseau de neurones est apte à prendre en compte une quantification de ses données d’entrée. Sinon, le décodeur réalise l’opération inverse du quantificateur Q. Par ailleurs, comme le module TT du codeur, le module TT’ réalise éventuellement un traitement des valeurs extraites des cartes de caractéristiques, pour générer le vecteur décodé Zdn.
[63] Le module MLP’ est un réseau de neurones défini par K paramètres Wdk, apte à traiter le vecteur Zdn, ou J-Uplet, en entrée, pour générer en sortie un second vecteur représentatif de l’échantillon Pn à décoder, de manière générale un vecteur comportant A éléments. Selon un mode de réalisation, A=3 et le vecteur de sortie est le triplet (R, G, B) du pixel Pdn décodé. Le module MLP’ est de structure identique au module MLP, et ses paramètres sont soit identiques si le codage de ses paramètres Wk est sans perte, soit différents si le codage est réalisé avec pertes.
[64] Lorsque tous les échantillons Pn du signal ont été décodés, on dispose d’un signal reconstruit I(Pdn), selon un exemple une image I comportant N échantillons décodés sous la forme de N vecteurs Pdn.
[65] Le dispositif de décodage DEC peut être mis en œuvre au moyen d’un dispositif électronique comprenant un processeur et une mémoire, non représentés ; chacun des modules mentionnés ci-dessus peut alors être réalisé par la coopération du processeur et d’instructions de programme d’ordinateur mémorisées dans la mémoire susmentionnée et conçues pour effectuer les fonctionnalités du module concerné, notamment comme décrit ci-dessous, lorsque ces instructions sont exécutées par le processeur. [66] la figure 3 illustre un exemple de réseau de neurones artificiels de synthèse utilisé au codage et au décodage dans le cadre de modes de réalisation de l’invention.
[67] Le réseau de neurones artificiels de synthèse MLP au codage et le réseau de neurones artificiels de synthèse MLP’ au décodage sont définis par une structure identique, comprenant par exemple une pluralité de couches de neurones artificiels, et par un ensemble de poids et fonctions d’activation associés respectivement aux neurones artificiels du réseau concerné.
[68] Une représentation vectorielle d’un échantillon courant (un vecteur Zn ou Zdn issu des cartes de caractéristiques FMi et FMEi ou FMdi et FME’i) est appliquée en entrée (c’est-à-dire sur une couche d’ entrée) du réseau de neurones artificiels de synthèse MLP ou MLP’ . Le réseau de neurones artificiels produit en sortie un vecteur P’n ou Pdn représentatif de l’échantillon décodé, selon un mode de réalisation les composantes de couleur (R, G, B) constitutives d’un pixel couleur d’une image.
[69] La concaténation de tous ces pixels reconstruits dans une image (2D, 3D) constitue l’image décodée, ou reconstruite.
[70] Au codeur, le réseau de neurones artificiels de synthèse MLP est entraîné sur l’image, de sorte à minimiser les différences entre la représentation en entrée de l’image courante I(Pn) et sa représentation I(P’n) en sortie, tout en minimisant également la quantité de données à encoder. Le module EVAL effectue une mesure de performance en ce sens.
[71] Une fois que l’entraînement est terminé, les paramètres du réseau sont encodés, soit sans pertes, auquel cas le réseau de neurones MLP’ est identique à MLP, soit avec pertes, auquel cas le réseau MLP’ peut être légèrement différent de MLP.
[72] La figure 4 est un logigramme représentant un exemple de procédé de codage qui peut être mis en œuvre par le dispositif de codage de la figure 1.
[73] Selon ce mode de réalisation, le signal est une image bidimensionnelle, chaque échantillon à coder est donc un pixel Pn de coordonnées (xn, yn).
[74] L’encodage se déroule en deux phases principales :
[75] Dans une première phase, dite phase de construction, un apprentissage est réalisé, afin de déterminer, pour un signal d’entrée I(Pn), les valeurs des cartes FMi et des paramètres Wk pour optimiser une fonction de coût globale. L’apprentissage est par exemple réalisé par une descente de gradient, suivie d’une mise à jour des paramètres du réseau de neurones MLP et des valeurs des cartes de caractéristiques FMi. Comme il est connu dans l’état de l’art, la fonction de coût peut être de type débit-distorsion, ou débit, ou distorsion, ou perceptuelle. Pour mesurer le débit R, il est nécessaire de simuler le codage des cartes FMi, puis de mesurer le débit de codage associé (la taille du flux B 1). Selon un mode de réalisation, on ne simule pas le codage des paramètres Wk car leur influence est moins importante que celle des cartes de caractéristiques. Selon un mode de réalisation, on simule aussi le codage des paramètres Wk et on mesure le débit associé (la taille du flux B2). Pour mesurer la distorsion D, il est nécessaire de simuler le codage puis le décodage d’une partie au moins de l'image I, pour obtenir au moins un pixel P’n résultant d’une simulation de codage puis de décodage, puis de mesurer l'écart entre cette partie de l'image I(Pn) en entrée et une partie correspondante de l'image I(P’n) codée puis décodée.
[76] Puis lors d’une deuxième phase, dite phase de codage, les cartes FMi et les paramètres Wk sont encodés pour produire les valeurs codées FMci et Wck avant transmission ou stockage. Ils constituent la représentation compressée du signal d’entrée I (Pn).
[77] On va maintenant décrire les étapes d’un procédé selon un mode de réalisation de l’invention.
[78] Lors d’une étape E20, un signal I(Pn) à coder, comportant une pluralité de N échantillons Pn, est fourni en entrée du procédé.
[79] Lors d’une étape E21, les M cartes FMi du premier groupe sont initialisées par le module GEN. Par la suite, les paramètres Wk du réseau de neurones MLP et les valeurs des cartes FMi doivent être optimisés durant la phase de construction.
[80] Selon un mode de réalisation, les cartes FMi sont de même résolution que le signal d’entrée I(Pn) et comportent donc chacune le même nombre de valeurs N qu’il y a d’échantillons Pn à coder.
[81] Selon un mode de réalisation, les cartes FMi sont de résolution inférieure ou égale à celle du signal d’entrée I(Pn) et comportent donc, pour au moins l’une d’entre elles, un nombre N’ de valeurs à coder inférieur à N.
[82] Selon un mode de réalisation, la première carte FMi est à la résolution du signal et chaque carte suivante est à une résolution moitié de la précédente. [83] Selon un mode de réalisation, plusieurs cartes FMi sont de même résolution, inférieure à la résolution du signal.
[84] Selon un mode de réalisation, les cartes FMi sont initialisées par des valeurs constantes prédéfinies.
[85] Selon un autre mode de réalisation, les cartes de caractéristiques sont initialisées par un ensemble de valeurs réelles aléatoires.
[86] Selon un mode de réalisation, une ou plusieurs cartes FMEi, formant un second groupe de L cartes de caractéristiques supplémentaires, sont générées et ajoutées au premier groupe. Elles servent à la construction du vecteur caractéristique mais ne seront ni stockées ni transmises.
[87] Ces cartes de caractéristiques FMi du premier groupe sont par la suite mises à jour, ou raffinées, lors d’une étape E22 par le module de mise à jour MAJ du codeur au cours de son apprentissage lors de la phase de construction.
[88] Lors d’une étape E23, les cartes FMi du premier groupe sont codées par le module FMC du codeur. Durant la phase de construction, cette opération est une simulation de codage. Durant la phase de codage, cette opération est un codage effectif et les valeurs codées constituent le flux Bl. La simulation peut être identique au codage effectif mais elle peut aussi être différente (par exemple, simplifiée). Pour ce codage, on peut utiliser toute technique connue visant à compresser les valeurs des cartes.
[89] Dans un mode de réalisation, les cartes FMi sont codées dans l’ordre (FMi, FM2,..., FM4), et les variables de chaque carte dans un ordre prédéfini, par exemple lexicographique. Chaque carte subit un codage entropique. Le codage entropique produit un flux compressé Bl dont le débit est mesuré ultérieurement au cours d’une étape E28.
[90] Lors d’une étape E24, des valeurs sont extraites par le module XTR des cartes FMi et éventuellement FMEi. Cette extraction est réalisée en fonction des coordonnées (xn, yn) de l’échantillon Pn du signal d’entrée.
[91] Selon un mode de réalisation, les valeurs de coordonnées (xn, yn) de chaque carte sont extraites.
[92] Selon un mode de réalisation, les valeurs de coordonnées sont mises à l’échelle pour procéder à l’extraction des couches de résolutions inférieures. [93] Selon un mode de réalisation, des valeurs voisines de celles précédemment citées sont également extraites pour le traitement ultérieur de l’étape E25.
[94] Lors d’une étape E25, un vecteur Zn est construit par le module TT à partir des valeurs extraites des cartes FMi et éventuellement Fme pour chaque échantillon Pn de coordonnées (xn, yn) du signal d’entrée. Le traitement comporte une quantification des valeurs extraites des cartes FMi, si nécessaire. Le traitement peut comporter d’autres opérations, comme un fdtrage, une mise à l’échelle, l’application d’une fonction quelconque, de préférence monotone, etc.
[95] Dans un mode de réalisation, Zn comporte autant de valeurs que de cartes ou cartes FMi (et optionnellement FMEi) en entrée. Dans ce cas on a J=M(+L).
[96] Dans un mode de réalisation, Zn est un J-uplet (zi, Z2,.. ., zj), constitué des valeurs des cartes FMi (et optionnellement FMEi) situées aux coordonnées (xn, yn) du pixel courant Pn, comme il sera illustré à l’appui de la figure 5. La valeur située aux coordonnées (xn, yn) de la carte FMi donne la valeur finale (zi) de l’élément i du vecteur Zn relative à cette carte FMi ou FMEi. Dans ce cas le module TT n’applique aucun traitement autre que la quantification.
[97] Dans un mode de réalisation, Zn est un J-uplet construit à partir de valeurs prélevées dans les cartes FMi (et optionnellement FMEi) à des coordonnées qui peuvent être différentes selon les cartes. Par exemple, si les cartes FMi (et/ou FMEi) sont à des résolutions différentes parce qu’elles ont été sous-échantillonnées, les cordonnées sont adaptées (par une mise à l’échelle) pour correspondre à la résolution de chaque carte, comme il sera illustré à l’appui de la figure 6.
[98] Dans un mode de réalisation, Zn est un J-uplet construit à partir de valeurs prélevées dans les cartes FMi (et FMEi) en appliquant le traitement à une ou plusieurs valeurs des cartes, par exemple un filtrage des valeurs voisines de la valeur ciblée dans une carte. Par exemple, dans une carte FMi qui se trouve à la même résolution que le signal d’entrée, on peut extraire les valeurs situées aux coordonnées (xn, yn), (xn-l, yn), (xn, yn-l) et (xn-l, yn-l) et appliquer un traitement à ces valeurs (filtrages, moyennage, interpolation, etc.) pour obtenir la valeur finale (zi) de l’élément i du vecteur Zn relative à cette carte FMi ou FMEi. Selon un autre exemple, dans une carte FMi qui se trouve à une résolution moitié du signal d’entrée, on peut considérer les valeurs situées aux coordonnées (xn/2, yn/2), (xn/2-l, yn/2), (xn/2, yn/2-l) et (xn/2-l, yn/2-l) et appliquer un traitement à ces valeurs (filtrages, moyennage, interpolation, etc.) pour obtenir la valeur finale (zi) de l’élément i du vecteur Zn relative à cette carte FMi ou FMEi.
[99] Les échantillons à coder sont par exemple traités par ordre séquentiel, de n=l à n=N. [100] Lors d’une étape E26, le vecteur Zn est traité par le réseau de neurones MLP pour générer en sortie un vecteur représentatif de l’échantillon Pn à coder, selon un mode de réalisation le triplet (R, G, B) de l’échantillon P’n (l’échantillon Pncodé puis décodé).
[101] La structure et les paramètres Wk du réseau de neurones sont initialisés par exemple lors de la première itération de cette étape. Ces paramètres sont par la suite mis à jour, ou raffinés, au cours de la phase de construction, lors des itérations ultérieures du procédé.
[102] Selon un mode de réalisation, les paramètres du réseau de neurones sont initialisés par des valeurs prédéfinies connues pour donner un résultat satisfaisant (par exemple, suite à un entraînement sur un corpus d’images).
[103] Selon un autre mode de réalisation, les paramètres Wk du réseau de neurones sont initialisés par un ensemble de valeurs aléatoires.
[104] Lors d’une étape E27, les paramètres Wk du réseau de neurones MLP sont quantifiés et codés. Durant la phase de construction, cette opération est une simulation de codage. Durant la phase de codage, cette opération est un codage effectif et les valeurs codées constituent le flux B2. La simulation peut être identique au codage effectif mais elle peut aussi être différente (par exemple, simplifiée). On peut utiliser à cette fin toute technique connue, par exemple la norme de codage de réseaux de neurones proposée par le standard MPEG-7 partie 17, aussi appelée NNR (Neural Network Representation). On notera que dans ce cas, il faut choisir la quantité de dégradation que le codage apporte aux paramètres Wk.
[105] Lors d’une étape E28, une mesure de performance est évaluée.
[106] A cet effet, les débits de simulation de codage associés aux cartes de caractéristiques (simulation du flux B1 par codage et décodage des cartes FM0 et optionnellement aux paramètres du réseau de neurones (simulation du flux B2 par codage et décodage des paramètres Wk) sont mesurés.
[107] Selon un mode de réalisation, la fonction de coût est de type débit-distorsion, notée (D+L*R), où D est par exemple l’erreur quadratique mesurée entre le signal d’entrée et le signal décodé (ou l’erreur mesurée sur un sous-ensemble d’échantillon du signal). Selon un autre exemple, D est calculé à partir d’une fonction perceptive telle que le SSIM (pour Structural SIMilarity), ou MSSSIM (pour Multi-scale Structural SIMilarity). Selon un mode de réalisation, R est le débit simulé du flux B1 ; selon un autre mode de réalisation, R est le débit total utilisé pour coder cette image, c’est-à-dire la somme des débits simulés de B 1 et B2. L est un paramètre qui règle le compromis débit-distorsion. D’autres fonctions de coût sont possibles.
[108] Tant que la fonction de coût n’a pas atteint son minimum, la mesure de performance n’est pas satisfaisante, et le procédé est réitéré à partir de l’étape E22. Cette minimisation peut être effectuée par un mécanisme connu comme une descente de gradient avec mise à jour des paramètres au cours de l’étape E22 pour les valeurs des cartes de caractéristiques et E26 pour les paramètres du réseau.
[109] Lors d’une étape E29, si la fonction de coût a atteint son minimum, l’entraînement s’arrête. Si une version codée correspondant à la dernière simulation des paramètres du réseau de neurones (Wk) et des cartes de caractéristiques (FMi) est disponible, les flux B1 et B2 peuvent en être constitués. Selon un autre mode de réalisation, le codage effectif les paramètres mis à jour du réseau de neurones (Wk) et des valeurs des cartes de caractéristiques (FMi) est effectué à cette étape pour produire les paramètres encodés Wck et FMci qui constituent des flux B1 etB2.
[110] Les flux B1 et B2 peuvent être concaténés pour produire un flux final BS. Selon un mode de réalisation, le flux B2 des paramètres codés du réseau de neurones est stocké ou transmis avant le flux Bl, afin de pouvoir être décodé avant le flux Bl.
[111] La figure 5 représente de manière illustrée un procédé de codage utilisé dans un mode de réalisation de l’invention pour coder une image I(Pn) (non représentée).
[112] Dans ce mode de réalisation, les cartes FMi sont au nombre de 4. Dans un mode préféré elles sont au nombre de 7. Les cartes FMi sont de même résolution que l’image I(Pn), et comportent donc chacune WxH valeurs, où W représente la largeur de l’image en pixels et H sa hauteur (N=WxH).
[113] Selon une variante présentée en pointillés, les cartes de caractéristiques sont au nombre de 5 : une carte supplémentaire FMEo a été introduite, qui ne sera ni stockée ni transmise. Cette carte supplémentaire comporte typiquement des données qui peuvent assister le réseau MLP dans la tâche de reconstruction du signal. Ainsi, les cartes ajoutées peuvent être une ou plusieurs parmi la liste suivante, non limitative :
[114] - Une carte comportant en chaque point l’abscisse de ce point.
[115] - Une carte comportant en chaque point l’ordonnée de ce point. [116] - Une carte comportant en chaque point un codage positionnel (comme décrit par exemple à l’adresse internet https://skosmos.loterre.fr/P66/fr/page/-K0D65X2X-X ).
[117] - Une carte représentant une image distincte de l’image en cours de traitement, susceptible d’apporter des informations sur l’image à coder, par exemple l’image précédemment traitée si l’image courante fait partie d’une série d’images à coder comme une vidéo, un ensemble d’images médicales, une représentation multivues, etc.
[118] - Une carte représentant une carte de caractéristiques d’une image distincte de l’image en cours de traitement susceptible d’apporter des informations sur l’image à coder, par exemple une carte précédemment traitée si l’image courante fait partie d’une série d’images à coder comme une vidéo, un ensemble d’images médicales, une représentation multivues, etc.
[119] - Une carte comportant la valeur d’un échantillon déjà décodé de la même carte, par exemple l’échantillon précédent dans l’ordre de décodage.
[120] Dans ce mode de réalisation, le vecteur Zn est un 4-uplet (Z1...Z4) constitué des valeurs extraites des cartes FMi situées aux coordonnées (xn, yn) du pixel courant Pn. Les valeurs extraites sont quantifiées par le module TT et le vecteur Zn constitué des valeurs quantifiées est traité par le réseau de neurones MLP pour générer en sortie un second vecteur, selon l’exemple un triplet (R, G, B) représentatif de l’échantillon Pn à coder. Le vecteur de sortie est dans ce cas le triplet (R, G, B) du pixel P’n codé puis décodé. Le triplet est inséré dans l’image décodée I(P’n) aux positions (xn, yn) des composantes couleur (R’, G’, B’).
[121] Dans un mode de réalisation, les 4 cartes FMi sont quantifiées.
[122] Selon la variante présentée en pointillés, le vecteur Zn est un 5-uplet (Z0...Z4), la valeur zo étant extraite de la carte supplémentaire FMEo.
[123] La figure 6 représente de manière illustrée un procédé de codage utilisé dans un autre mode de réalisation de l’invention.
[124] Dans ce mode de réalisation, les cartes FMi sont au nombre de 4. De même que dans le mode précédent, la première carte FMi a la même résolution que l’image I, et comporte donc WxH valeurs, où W représente la largeur de l’image en pixels, et H sa hauteur. La seconde carte FM2 est de résolution moitié (dans chaque dimension) de la carte FMi. Chaque carte supplémentaire est de résolution moitié de la carte précédente. Cette structure permet de réduire le nombre de variables des cartes de caractéristiques ce qui facilite le codage et l’apprentissage tout en minimisant le coût de codage.
[125] Dans ce mode de réalisation, un 4-uplet Zn est construit à partir des valeurs des cartes FMi situées respectivement aux coordonnées (xn, yn), (xn/2, yn/2), (xn/4, yn/4), (xn/8, yn/8) du pixel courant Pn (xn, yn). Ces valeurs extraites sont traitées et quantifiées pour générer le 4-uplet Zn. Selon un mode de réalisation, pour la carte FM2, on extrait la valeur située aux coordonnées (xn /2, yn /2) pour obtenir la valeur finale (Z2) du vecteur Zn relative à cette carte FM2. Selon un autre mode de réalisation, pour la carte FM2, on extrait les valeurs situées aux coordonnées (xn /2, yn /2), (xn /2-1, yn /2), (xn /2, yn /2- 1), (xn /2-1, yn /2-1) et on leur applique un filtrage pour obtenir la valeur finale (Z2) du vecteur Zn relative à cette carte FM2. Un suréchantillonnage est réalisé de cette manière. Le filtrage ou suréchantillonnage peut par exemple utiliser un filtrage bi-cubique ou filtrage de Lanczos, connus en soi. On peut également utiliser un traitement plus général : un réseau de neurones peut être utilisé pour produire la valeur finale (Z2) par pondération des valeurs situées aux coordonnées (xn /2, yn /2), (xn /2-1, yn /2), (xn /2, yn /2- 1), (xn /2-1, yn /2-1), par exemple un réseau de type MLP.
[126] Comme précédemment, le vecteur Zn est traité par le réseau de neurones MLP pour générer en sortie un second vecteur, ici un triplet (R, G, B) représentatif de l’échantillon Pn à coder. Le vecteur de sortie est dans ce cas le triplet (R, G, B) du pixel P’n codé puis décodé. Le triplet (R, G, B) est réinjecté dans l’image décodée aux positions (xn, yn) des composantes couleur (R’, G’, B’) de l’image I(p’n).
[127] D’autres types de structure sont possibles, par exemple on peut utiliser un taux de réduction différent de un demi entre les cartes (un quart, ou un tiers, etc.) L’étape de suréchantillonnage est alors adaptée pour produire la valeur finale du vecteur Zn.
[128] Comme il a été décrit à l’appui de la figure 5, d’autres cartes FMEi peuvent être introduites, qui serviront à la génération du vecteur Zn mais ne seront ni stockées ni transmises.
[129] La figure 7 est un logigramme représentant un exemple de procédé de décodage qui peut être mis en œuvre par le dispositif de décodage de la figure 2.
[130] Lors d’une étape E30, les flux B 1 et B2 sont extraits du flux encodé BS. Ils contiennent respectivement les représentations codées des cartes du premier groupe FMci et des paramètres Wck. [131] Lors d’une étape E31, les M cartes FMdi sont générées par décodage des valeurs FMci. Pour ce décodage, on peut utiliser toute technique connue similaire à celle utilisée au codeur, de préférence un décodage entropique. Dans un mode de réalisation, les cartes FMdi sont décodées dans l’ordre (FMdi, FMd2,... FMd4), et les variables de chaque carte dans un ordre prédéfini, par exemple lexicographique.
[ 132] Selon un mode de réalisation tel que décrit pour le codeur, les cartes FMdi sont de même résolution que le signal I (Pdn) à reconstituer, c’est-à-dire qu’elles comportent N valeurs.
[133] Selon un mode de réalisation tel que décrit pour le codeur, les cartes FMdi sont à une résolution inférieure ou égale à celle du signal I (Pdn) à reconstituer.
[134] Selon un mode de réalisation tel que décrit pour le codeur, plusieurs cartes FMdi sont de même résolution, inférieure à la résolution du signal.
[135] Lors d’une étape E32, selon un mode de réalisation, une ou plusieurs cartes FME’i, formant un second groupe de L cartes de caractéristiques supplémentaires, sont générées et complètent le premier groupe. Elles ne sont pas décodées mais générées par le décodeur de manière identique à la génération du codeur. Elles comportent typiquement des données qui peuvent assister le réseau MLP’ dans la tâche de reconstruction du signal. La liste non limitative de cartes de caractéristiques supplémentaires possibles décrite à l’appui de la figure 5 pour le codeur s’applique ici.
[136] Lors d’une étape E33, des valeurs sont extraites par le module XTR’ des cartes FMdi et éventuellement FME’i. Cette extraction est réalisée en fonction des coordonnées (xn, yn) du signal d’entrée de l’échantillon Pn du signal à reconstruire. Cette étape est identique à l’étape E24 qui a été décrite pour le codeur à l’appui de la figure 4 et les modes de réalisation décrits s’appliquent.
[137] Les échantillons à décoder sont par exemple traités par ordre séquentiel, de n=l à n=N.
[138] Lors d’une étape E34, un vecteur Zdn est construit par le module TT’ à partir des valeurs extraites des cartes FMdi et éventuellement FME’i pour un échantillon Pn à décoder de coordonnées (xn, yn). Le traitement peut comporter une quantification inverse des valeurs extraites ou du vecteur Zdn constitué, si nécessaire. Le traitement peut comporter d’autres opérations, comme un filtrage, une mise à l’échelle, etc. Cette étape est identique à l’étape E25 qui a été décrite pour le codeur à l’appui de la figure 4 et les modes de réalisation décrits s’appliquent. Cependant la quantification inverse n’est pas obligatoire. Dans ce cas particulier, l’étape E34 et le module TT’ sont donc optionnels.
[139] Lors d’une étape E35, les paramètres Wdk du réseau de neurones MLP’ sont générés par décodage des valeurs Wck du flux B2. On peut utiliser à cette fin toute technique connue de décodage correspondant à la technique de codage qui a été utilisée par le codeur. Le réseau de neurones MLP’ est semblable au réseau MLP, c’est-à-dire qu’il est de même structure et comporte les mêmes paramètres, au codage près, qui peut être réalisé avec ou sans pertes.
[140] Selon un mode de réalisation, le flux B2 est décodé avant le flux Bl, afin de pouvoir disposer du réseau de neurones avant de commencer à décoder les échantillons.
[141] Lors d’une étape E36, le vecteur Zdn est traité par le réseau de neurones MLP' pour générer en sortie un second vecteur représentatif de l’échantillon Pdn à décoder, selon un mode de réalisation un triplet qui est injecté dans l’image décodée I(Pdn) aux positions (xn, yn) des composantes couleur (Rd, Gd, Bd). Cette étape est identique à l’étape E26 qui a été décrite pour le codeur à l’appui de la figure 4.
[142] Lorsque tous les échantillons du signal ont été traités, le signal décodé correspondant par exemple à l’image I(Pdn) est disponible.
[143] La figure 8 représente de manière illustrée un procédé de décodage utilisé dans un mode de réalisation de l’invention pour décoder une image I(Pdn).
[144] Dans ce mode de réalisation, les cartes LMdi sont au nombre de 4. Dans un mode préféré elles sont au nombre de 7.
[145] Dans ce mode de réalisation, les cartes LMdi sont de même résolution que l’image à décoder, et comportent donc WxH variables, où W représente la largeur de l’image en pixels, et H sa hauteur.
[146] Dans ce mode de réalisation, le vecteur Zdn est un 4-uplet (Z1...Z4) constitué des valeurs des cartes LMdi situées aux coordonnées (xn, yn) du pixel courant Pdn. Le vecteur Zdn est optionnellement déquantifié puis traité par le réseau de neurones MLP’ pour générer en sortie un second vecteur, selon l’exemple un triplet (R, G, B) représentatif de l’échantillon Pdn à décoder. Le triplet (R, G, B) est réinjecté dans l’image décodée I(Pdn) aux coordonnées (xn, yn) dans les composantes couleur (Rd, Gd, Bd). [147] Selon une variante présentée en pointillés, les cartes sont au nombre de 5 : une carte supplémentaire FME’o a été introduite. Dans ce mode de réalisation, le vecteur Zdn est un 5- uplet.

Claims

Revendications
[Revendication 1] Procédé de codage d’un signal (I(Pn)) comprenant une pluralité d’échantillons (Pn) à coder comportant les étapes suivantes :
- une étape de construction, comportant les sous-étapes de :
- construction (E21, E22) d’un premier groupe de cartes de caractéristiques (FMi);
- pour au moins un échantillon, dit échantillon courant (Pn), du signal à coder, associé à une position (xn, yn) dans le signal à coder :
- construction (E24, E25) d’un vecteur caractéristique (Zn) à partir desdites cartes de caractéristiques (FMi) dudit premier groupe, en fonction de ladite position (xn, yn) dudit échantillon courant (Pn) ;
- traitement (E25) dudit vecteur caractéristique (Zn) par un réseau de neurones artificiels (MLP) défini par un ensemble de paramètres (Wk), pour fournir un vecteur représentatif d’une valeur décodée (P’n) de l’échantillon courant ;
- mise à jour (E22, E26) d'au moins une valeur d’une desdites cartes de caractéristiques dudit premier groupe et/ou d’au moins un paramètre dudit réseau, en fonction d’une mesure de performance de codage,
- une étape de codage (E23, E27, E29) dudit premier groupe de cartes de caractéristiques (FMi) et dudit ensemble de paramètres (Wk).
[Revendication 2] Procédé de codage d’un signal selon la revendication 1, caractérisé en ce qu’il comporte une étape de construction (E21) d’un second groupe de cartes de caractéristiques (FMEi), et en ce que le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques du second groupe.
[Revendication 3] Procédé de codage d’un signal selon l’une des revendications précédentes, caractérisé en ce qu’une au moins desdites cartes de caractéristiques (FMi, FMEi ) est de résolution inférieure à celle du signal à coder.
[Revendication 4] Procédé de codage d’un signal selon l’une des revendications précédentes, caractérisé en ce qu’une au moins desdites cartes de caractéristiques (FMi, FMEi ) est de résolution identique à celle du signal à coder.
[Revendication 5] Procédé de codage d’un signal selon l’une des revendications précédentes, caractérisé en ce que la construction dudit vecteur (Zn) caractéristique comporte une sous-étape d’extraction d’une valeur de ladite au moins une carte de caractéristiques (FMi, FMEi) à une position identique (xn, yn) à celle de l’échantillon courant (Pn) dans le signal d’entrée.
[Revendication 6] Procédé de codage d’un signal selon l’une des revendications précédentes, caractérisé en ce que la construction dudit vecteur (Zn) caractéristique comporte les sous-étapes suivantes :
- extraction d’une pluralité de valeurs desdites cartes de caractéristiques (FMi, FMEi) en fonction de ladite position (xn, yn) dudit échantillon courant (Pn) ;
- traitement desdites valeurs extraites pour obtenir le vecteur caractéristique.
[Revendication 7] Procédé de codage d’un signal selon l’une des revendications précédentes, caractérisé en ce que le codage dudit premier groupe de cartes de caractéristiques comporte une sous-étape de codage entropique.
[Revendication 8] Procédé de décodage d’un signal comprenant une pluralité d’échantillons (Pdn) à décoder comportant les étapes suivantes :
- décodage (E31) d’un premier groupe de cartes de caractéristiques (FMdi) ;
- décodage (E35) d’un ensemble de paramètres (Wdk) représentatifs d’un réseau de neurones (MLP’) ;
- pour au moins un échantillon, dit échantillon courant (Pdn), du signal à décoder, associé à une position (xn, yn) dans le signal à décoder :
- construction (E33, E34) d’un vecteur caractéristique (Zdn) à partir des cartes de caractéristiques dudit premier groupe (FMdi), en fonction de ladite position (xn, yn) dudit échantillon courant, et :
- traitement (E36) dudit vecteur caractéristique (Zdn) par un réseau de neurones artificiels (MLP’) défini par les paramètres décodés (Wdk) pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant (Pdn).
[Revendication 9] Procédé de décodage selon la revendication 8, caractérisé en ce en ce qu’il comporte une étape de construction (E32) d’un second groupe de cartes de caractéristiques (FME’i) et en ce que le vecteur caractéristique est en outre construit à partir desdites cartes de caractéristiques du second groupe.
[Revendication 10] Procédé de décodage selon la revendication 8 ou 9, caractérisé en ce qu’une au moins desdites cartes de caractéristiques (FMdi, FME’i) est de résolution inférieure à celle du signal à décoder.
[Revendication 11] Procédé de décodage d’un signal selon l’une des revendications 8 à 10, caractérisé en ce qu’une au moins desdites cartes de caractéristiques (FMdi, FME’i ) est de résolution identique à celle du signal à décoder.
[Revendication 12] Procédé de décodage d’un signal selon l’une des revendications 8 à 11, caractérisé en ce que la construction dudit vecteur (Zdn) caractéristique comporte une sous-étape d’extraction d’une valeur de ladite au moins une carte de caractéristiques (FMdi, FME’i) à une position identique (xn, yn) à celle de l’échantillon courant (Pdn) dans le signal à décoder.
[Revendication 13] Procédé de décodage d’un signal selon l’une des revendications 8 à 12, caractérisé en ce que la construction dudit vecteur caractéristique (Zdn) comporte les sous-étapes suivantes :
- extraction d’une pluralité de valeurs des cartes de caractéristiques en fonction de ladite position (xn, yn) dudit échantillon courant (Pdn) ;
- traitement desdites valeurs extraites pour obtenir le vecteur caractéristique.
[Revendication 14] Procédé de décodage d’un signal selon l’une des revendications 8 à 13, caractérisé en ce que le décodage (E31) dudit premier groupe de cartes de caractéristiques comporte une sous-étape de décodage entropique.
[Revendication 15] Dispositif de codage d’un signal (I(Pn)) comprenant une pluralité d’échantillons (Pn) à coder caractérisé en ce que ledit dispositif est configuré pour mettre en œuvre :
- construction (GEN, MAJ) d’un premier groupe de cartes de caractéristiques (FM0 ;
- pour au moins un échantillon, dit échantillon courant (Pn), du signal à coder, associé à une position (xn, yn) dans le signal à coder :
- construction (XTR, TT) d’un vecteur caractéristique (Zn) à partir desdites cartes de caractéristiques (FM0 dudit premier groupe, en fonction de ladite position (xn, yn) dudit échantillon courant (Pn), et ;
- traitement (MLP) dudit vecteur caractéristique (Zn) par un réseau de neurones artificiels (MLP) défini par un ensemble de paramètres (Wk), pour fournir un vecteur représentatif d’une valeur décodée (P’n) de l’échantillon courant ;
- mise à jour (MAJ, NNC) d'au moins une valeur d’une desdites cartes de caractéristiques dudit premier groupe et/ou d’au moins un paramètre dudit réseau, en fonction d’une mesure de performance de codage,
- codage (FMC, NNC) dudit premier groupe de cartes de caractéristiques (FMi) et dudit ensemble de paramètres (Wk).
[Revendication 16] Dispositif de décodage d’un signal comprenant une pluralité d’échantillons (Pdn) à décoder caractérisé en ce que ledit dispositif est configuré pour mettre en œuvre :
- décodage (FMD) d’un premier groupe de cartes de caractéristiques (FMdi) ;
- décodage (NND) d’un ensemble de paramètres (Wdk) représentatifs d’un réseau de neurones (MLP’) ;
- pour au moins un échantillon, dit échantillon courant (Pdn), du signal à décoder, associé à une position (xn, yn) dans le signal à décoder :
- construction (XTR’, TT’) d’un vecteur caractéristique (Zdn) à partir des cartes de caractéristiques dudit premier groupe (FMdi), en fonction de ladite position (xn, yn) dudit échantillon courant , et :
- traitement (MLP’) dudit vecteur caractéristique (Zdn) par un réseau de neurones artificiels (MLP’) défini par les paramètres décodés (Wdk) pour fournir un vecteur représentatif d’une valeur décodée de l’échantillon courant (Pdn).
[Revendication 17] Programme d’ordinateur comportant des instructions pour l’exécution des étapes d'un procédé de codage ou de décodage selon la revendication 1 ou 8 lorsque ledit programme est exécuté par un ordinateur.
PCT/EP2023/084245 2022-12-09 2023-12-05 Procédé et dispositif de codage et décodage d'images. WO2024121107A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2213086A FR3143248A1 (fr) 2022-12-09 2022-12-09 Procédé et dispositif de codage et décodage d’images.
FRFR2213086 2022-12-09

Publications (1)

Publication Number Publication Date
WO2024121107A1 true WO2024121107A1 (fr) 2024-06-13

Family

ID=86331911

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/084245 WO2024121107A1 (fr) 2022-12-09 2023-12-05 Procédé et dispositif de codage et décodage d'images.

Country Status (2)

Country Link
FR (1) FR3143248A1 (fr)
WO (1) WO2024121107A1 (fr)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
D'EMILIEN DUPONT ET AL.: "COmpression with Implicit Neural représentations", ARXIV:2103.03123
SUBIN KIM ET AL: "Scalable Neural Video Representations with Learnable Positional Features", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 13 October 2022 (2022-10-13), XP091342999 *
TH\'EO LADUNE ET AL: "COOL-CHIC: Coordinate-based Low Complexity Hierarchical Image Codec", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 11 December 2022 (2022-12-11), XP091392072 *
WENTAO SHANGGUAN ET AL: "Learning Cross-Video Neural Representations for High-Quality Frame Interpolation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 28 February 2022 (2022-02-28), XP091166479 *
YUAN ZHONGZHENG ET AL: "Block-based Learned Image Coding with Convolutional Autoencoder and Intra-Prediction Aided Entropy Coding", 2021 PICTURE CODING SYMPOSIUM (PCS), 1 June 2021 (2021-06-01), pages 1 - 5, XP055837685, ISBN: 978-1-6654-2545-2, DOI: 10.1109/PCS50896.2021.9477503 *
YUAN ZHONGZHENG: "Block-based Image Coding with Autoencoder and Border Information", 20 May 2020 (2020-05-20), pages 1 - 34, XP055938495, Retrieved from the Internet <URL:https://s18798.pcdn.co/videolab/wp-content/uploads/sites/10258/2020/10/Zhongzheng_Yuan_Thesis_Final_Submitted.pdf> [retrieved on 20220705] *

Also Published As

Publication number Publication date
FR3143248A1 (fr) 2024-06-14

Similar Documents

Publication Publication Date Title
EP0448491B1 (fr) Procédé de codage et de transmission à au moins deux niveaux de qualité d&#39;images numériques appartenant à une séquence d&#39;images, et dispositifs correspondants
FR2755818A1 (fr) Codage de signal numerique par decomposition en sous-bandes de frequence et quantification vectorielle a etats finis
EP3075155B1 (fr) Procédé de codage et de décodage d&#39;images, dispositif de codage et de décodage d&#39;images et programmes d&#39;ordinateur correspondants
EP3198876B1 (fr) Génération et codage d&#39;images intégrales résiduelles
FR2958489A1 (fr) Procede de codage et procede de reconstruction d&#39;un bloc d&#39;une sequence d&#39;images
WO2024121107A1 (fr) Procédé et dispositif de codage et décodage d&#39;images.
WO2024121108A1 (fr) Procédé et dispositif de codage et décodage d&#39;images.
WO2024121110A1 (fr) Procédé et dispositif de codage et décodage de séquences d&#39;images
WO2024121109A1 (fr) Procédé et dispositif de codage et décodage d&#39;images
FR2935864A1 (fr) Procede de codage par blocs d&#39;une image matricielle de pixels, programme d&#39;ordinateur et dispositif de capture d&#39;images correspondants
EP3409016A1 (fr) Procédé de codage et décodage de données, dispositif de codage et décodage de données et programmes d&#39;ordinateur correspondants
EP3520416B1 (fr) Procédé de codage d&#39;une image, procédé de decodage, dispositifs, equipement terminal et programmes d&#39;ordinateurs associés
EP3939304A1 (fr) Procédés et dispositifs de codage et de décodage d&#39;une séquence vidéo multi-vues
EP3918798A1 (fr) Procédé et dispositif de codage et de décodage de données correspondant à une séquence vidéo
FR2935865A1 (fr) Procede de transcodage entropique d&#39;un premier train de donnees binaires en un second train de donnees binaires compresse, programme d&#39;ordinateur et dispositif de capture d&#39;images correspondants
FR3083662A1 (fr) Compression et decompression robustes d&#39;images numeriques
EP4295575A1 (fr) Determination d&#39;un mode de codage d&#39;image
WO2013156718A1 (fr) Procédé de codage et de décodage d&#39;images intégrales, dispositif de codage et de décodage d&#39;images intégrales et programmes d&#39;ordinateur correspondants
EP4222950A1 (fr) Codage et decodage d&#39;une video multi-vues
Bacchus Deep learning for satellite image compression
EP4104446A1 (fr) Procédé et dispositif de traitement de données de vidéo multi-vues
EP4222957A1 (fr) Procédé et dispositif électronique de décodage d&#39;un flux de données, programme d&#39;ordinateur et flux de données associés
FR3096538A1 (fr) Procédé et dispositif de traitement de données de vidéo multi-vues
FR3120174A1 (fr) Prédiction pondérée d’image, codage et décodage d’image utilisant une telle prédiction pondérée
FR2914467A1 (fr) Procedes et dispositifs de codage et de decodage de signaux numeriques multidimensionnels.