EP3008910A1 - Dispositif de traitement de données - Google Patents

Dispositif de traitement de données

Info

Publication number
EP3008910A1
EP3008910A1 EP14749863.8A EP14749863A EP3008910A1 EP 3008910 A1 EP3008910 A1 EP 3008910A1 EP 14749863 A EP14749863 A EP 14749863A EP 3008910 A1 EP3008910 A1 EP 3008910A1
Authority
EP
European Patent Office
Prior art keywords
data
image
produce
converter
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP14749863.8A
Other languages
German (de)
English (en)
Inventor
Sébastien GILLES
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Viddiga
Original Assignee
Viddiga
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Viddiga filed Critical Viddiga
Publication of EP3008910A1 publication Critical patent/EP3008910A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/467Embedding additional information in the video signal during the compression process characterised by the embedded information being invisible, e.g. watermarking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2541Rights Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4627Rights management associated to the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Definitions

  • the invention relates to the field of data processing.
  • media rights holders whether audio or video, want to be able to detect the broadcast of the media on which they have rights.
  • fingerprinting in English
  • marking in English
  • Third parties have thus filled the void that exists in advertiser-radio or television channel relationships, and they are known as trusted third parties. However, here again, we must trust these third parties, and their services are very expensive.
  • the marking must be made from the production of the media concerned, which is expensive and is difficult to catch up then.
  • the costs of detection of the marking are very important, require an intensive computation very consumer of resources in mobile environment, and the known marking techniques can be irreversibly degraded when the radio or television channel retouches its signal for the 'program.
  • imprinting methods tend to fail to maintain a satisfactory level of detection quality by "scaling" (that is, their ability to identify content drops significantly when the the amount of data to be identified increases significantly), or to have insufficient performance, unless the detection cost is too high to be able to do real time.
  • radio or television channels to know in real time their programming and / or advertising, in a completely reliable way, in order to promote the media whose use is increasing exponentially and are known as the "second screen"("secondscreen” in English).
  • many radio or television channels allow their listeners to use their tablet or their smartphone ("smartphone") with an application that they provide them to enrich their experience during a meeting. given program.
  • the exact and instantaneous knowledge of the programming grid actually broadcast by the radio or television channel is an asset not available to date, but which would allow for example to broadcast targeted advertisements on the second screen, advertisements which it It is well known that they are worth ten to one hundred times larger than those of conventional banners.
  • the invention improves the situation.
  • the invention proposes a device for processing streaming audio-video data, comprising a selector arranged to determine input data relating to an audio stream or a video stream in the audio-video data in question. flow, a converter arranged to produce image data at a frequency selected from the input data, an encoder arranged to produce compressed data from the image data, and a projector arranged to produce data from imprinting from the compressed data, the converter being arranged to produce the image data in the form of a fixed size image, the encoder being arranged to work successively on each image described by the image data, and the projector being arranged to produce the flow imprint data from the weight of the compressed data produced successively.
  • the device may also have the following characteristics:
  • the converter is arranged to segment input data relating to an audio stream into successive windows of samples, and to convert the input data of each window into successive image data by converting the amplitude of each sample into a sample. gray scale value, the converter being further arranged to produce image data of a given window in the form of an image in which successive pixels of a given line correspond to successive samples of the data of each of which has a corresponding gray shade value, and in which the lines of the image are identical to each other,
  • the windows have a duration of 0.25 s, and are separated from each other by a number of samples making it possible to obtain image data at the chosen frequency
  • the converter is arranged to select images in input data relating to a video stream according to the selected frequency, and to produce the image data by converting these images to a selected dimension
  • the chosen dimension is 120 * 160
  • the encoder includes a lossy image compressor
  • the encoder works by block processing and quantization
  • the encoder comprises a compressor of the JPEG family, or a compressor of the WebP type,
  • the projector is arranged to produce the fingerprint data by projecting on a given range the weight of the compressed data successively produced according to a chosen projection law
  • FIG. 1 represents an exemplary implementation environment of a device according to the invention
  • FIG. 2 represents a device according to the invention
  • FIG. 4 represents an example of a fingerprint produced using a second encoding algorithm.
  • FIG. 1 represents an environment for implementing a device according to the invention.
  • a licensee transmits unmarked content from a content server 10.
  • the transmitted content is received by users by various media consumption devices, such as a computer 12, a tablet 14 or a radio 16.
  • the consumer devices may comprise any device capable of implementing the device described in FIG. 2, whether (in addition to the devices already mentioned as examples) of a smart phone (smartphone in English), a connected television, a connected television box, a server dedicated to the analysis of contents, or any other suitable device,
  • the content server can be connected to third-party servers for the provision of additional information of the identified content, or be a black box (black box in English) which carries out both the identification of content and the determination of further information.
  • a black box black box in English
  • the invention solves this problem with a device that produces a robust footprint, light, and low cost of calculation.
  • known marking or fingerprinting solutions seek to qualify the contents individually, as if they were autonomous entities, regardless of their transmission environment. As a result, the resulting markings and imprints are often strongly correlated to the content itself, and in fact represent a kind of simplification of the original content, ultimately close enough to the original.
  • the device according to the invention comprises a selector 20, a converter 22, an encoder 24 and a projector 26.
  • the function of the selector 20 is to demultiplex the original stream, i.e. to receive streamed audio-video data, and to extract the audio or video track to form an input data stream.
  • the input data stream contains only audio data or exclusively video data.
  • the selector 20 produces input data designating the amplitude of the successive samples of this audio stream.
  • the selector 20 produces on the one hand input data corresponding to the audio stream of the video, and on the other hand input data corresponding to the image stream. video, by demultiplexing.
  • the selector 20 may omit producing the input data corresponding to the image stream of the video.
  • the selector 20 calls the converter 22 with the input data ent dat and outputs image data im da t. This step is fundamental, and will be explained in more detail later.
  • the converter 22 is arranged to produce the image data differently depending on whether the input data relates to an audio stream or a video stream.
  • the pixel line is copied 8 times, so that the size of the images produced is L * 8, where L is the number of audio samples in each window.
  • the input data can be transformed to 44.1 kHz, or the converter 22 can act by producing pixels whose the value in gray levels takes into account this resampling, for example by extrapolation.
  • sampling may be based on one of the channels only, or on an average of the channels.
  • the calculation of the gray level value for each pixel depends on the quantization of the audio stream of the input data.
  • the converter 22 produces images coded in 256 gray levels.
  • the input data represents a 16-bit quantized flow
  • the projection is linear.
  • the projection can also be Gaussian, or any other suitable projection.
  • the converter 22 is arranged to produce successive images of fixed size.
  • a video stream implements two main devices: a container (whose role is to carry elementary packets of information) and a codec (whose role is to encode and decode elementary packets).
  • the elementary decompression of this stream gives rise to a series of images ordered temporally, of fixed size (for example 1920x1080 for a TV signal in HD format). Nevertheless, a re-encoding of this stream for a mobile terminal (for example 720x576 pixels for a TV signal in SD format) will give rise to images of different definition.
  • other diffusion parameters influence the final size of the elementary image of a stream, such as the addition of horizontal black bars to transform a 16: 9 signal into a 4: 3 signal. In order to eliminate the dependence of the subsequent processing steps on the size of the original image, it is "resized" to a fixed size, regardless of the input stream.
  • the converter 22 is arranged to select an image every l / 25th of second in the data entries. In the case where the video stream of the input data is present at a rate other than 25 frames per second, for example at 30 frames per second, the converter 22 can carry out an extrapolation of images surrounding each time marker at 25 Hz. At the output, the converter 22 transmits the image data corresponding to each successive image derived from the input data to the encoder 24.
  • the function of the encoder 24 is to produce comp compressed data which constitutes a compressed version of the data. image.
  • the encoder 24 is the standard JPEG encoder, free, developed and distributed by the Independent JPEG Group.
  • the encoder 24 could also be an open-source WebP encoder developed by Google.
  • the encoder 24 has the particularity of performing a lossy encoding operating by block processing and quantization. Other image encoding algorithms with similar characteristics may be considered.
  • the fingerprint data is abstract with respect to the input data, while being strongly related to it.
  • fingerprint data taken in isolation are not always discriminating, the fact that they are generated in flow makes the fingerprint generation process particularly robust, repeatable and discriminant.
  • the imprint flux has an invariance character with respect to the transformations or losses that can affect a video or audio signal during its transmission and its reproduction (noise, re-encoding, resizing, changing colors, contrast or brilliance) and descriptive power to uniquely identify any excerpt from that flux.
  • the generation process is very inexpensive in computing time, which allows to generate a robust footprint in real time.
  • the Applicant has oriented its research on the generation of fingerprint taking into account that the contents are emitted in flow. In doing so, he discovered that it is advantageous to produce a footprint also as a flow.
  • the Applicant has identified that the elementary elements of the stream (the images for a video stream, and the sample windows for an audio stream) represent instantaneous static / spatial information. This discovery, on the other hand, led to the exclusion of the video or audio encoders generating imprints that intrinsically correlate the elements of the stream to take advantage of the redundancies between the successive elementary elements of a stream.
  • the examples described here recommend an audio data stream of 44.1 kHz input, with windows of 0.25 s, and for a 25 Hz fingerprint data stream, and a video data stream of input at 25 frames per second, with an aspect ratio of 3/4. These particular elements may vary depending on the desired applications.
  • the device of the invention can also be used to detect the presence of illegal content on the program.
  • content-sharing platforms by detection at the input before any sharing, which offers a great security to the hosting of contents.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Dispositif d'analyse de données audio-vidéo en flux, caractérisé en ce qu'il comprend un sélecteur (20) agencé pour déterminer des données d'entrée relatives à un flux audio ou à un flux vidéo dans les données audio-vidéo en flux, un convertisseur (22) agencé pour produire des données d'image à une fréquence choisie à partir des données d'entrée, un encodeur (24) agencé pour produire des données compressées à partir des données d'image, et un projecteur (26) agencé pour produire des données d'empreinte à partir des données compressées, le convertisseur (22) étant agencé pour produire les données d'image sous la forme d'une image de dimension fixe, l'encodeur (24) étant agencé pour travailler successivement sur chaque image décrite par les données d'image, et le projecteur (26) étant agencé pour produire les données d'empreinte en flux à partir du poids des données compressées produites successivement.

Description

Dispositif de traitement de données
L'invention concerne le domaine du traitement de données. Dans de nombreux environnements, les titulaires de droits de médias, qu'ils soient audio ou vidéo par exemple, souhaitent être capables de détecter la diffusion des médias sur lesquels ils détiennent des droits. Pour cela, deux grandes familles de traitements de données existent : la génération d'empreinte (« fïngerprinting » en anglais), et le marquage (« watermarking » en anglais).
Les exemples les plus connus d'utilisation de ces technologies concernent la recherche d'utilisation de contenus diffusés illégalement sur des réseaux ou la détection sur les plateformes de partage vidéo de contenus protégés afin de proposer à l'ayant-droit de faire retirer son contenu ou de partager avec la plateforme les revenus tirés de la monétisation publicitaire des visionnages de son contenu. Mais cela ne représente qu'une partie assez peu significative des besoins.
En effet, de nombreux modèles économiques de valorisation des droits des titulaires sont basés sur une rémunération basée sur le nombre de diffusions par des réseaux licites, comme les radios ou les chaînes de télévision. Dans le cas particulier de la publicité, ces contrats prévoient la diffusion de médias selon un certain nombre et dans certaines plages horaires contre une rémunération.
Cependant, pour diverses raisons, les programmes des chaînes de radio et de télévision sont bouleversés en permanence, et le programme qui est prévu par la régie de publicité n'est pour ainsi dire jamais respecté, et des arbitrages sont réalisés par les chaînes de radio et de télévision pour respecter leurs engagements.
Néanmoins, sauf à engager des personnes dont le seul métier est de suivre l'ensemble des chaînes de radio et de télévision concernées par une campagne de publicité donnée pour une entreprise donnée, il n'est pas possible de vérifier si les contrats sont effectivement respectés. Au surplus, ces personnes seraient employées soit par une chaîne de radio ou de télévision, soit par une entreprise qui a acheté de l'espace publicitaire. Elles ne seraient donc pas considérées comme impartiales.
Des tiers ont donc rempli le vide qui existe dans les relations annonceurs-chaînes de radio ou de télévision, et ils sont connus comme des tiers de confiance. Cependant, ici encore, il faut faire confiance à ces tiers, et leurs services sont très onéreux.
Il existe donc historiquement un besoin d'avoir un outil qui permette de rendre plus objective la relation entre les annonceurs et les chaînes de radio ou de télévision.
Ce besoin peut difficilement être rempli par le biais du marquage : en effet, le marquage doit être réalisé dès la production du média concerné, ce qui coûte cher et est difficilement rattrapable ensuite. De plus, les coûts de détection du marquage sont très importants, requièrent un calcul intensif très consommateur de ressources en environnement mobile, et les techniques de marquage connues peuvent être dégradées de manière irréversible lorsque la chaîne de radio ou de télévision retouche son signal pour l'émission.
Quant aux méthodes de génération d'empreinte, elles ont tendance à échouer à maintenir un niveau de qualité de détection satisfaisant en passant "à l'échelle" (c'est-à- dire que leur capacité à identifier un contenu baisse significativement lorsque le volume de données à identifier augmente significativement), ou à avoir des performances insuffisantes, à moins de présenter un coût de détection trop élevé pour pouvoir faire du temps réel.
Au-delà du problème décrit ci-dessus, il existe un besoin de permettre aux chaînes de radio ou de télévision de connaître en temps réel leur programmation et/ou leur publicité, de manière totalement fiable, afin de pouvoir valoriser les médias dont l'utilisation est en augmentation exponentielle et qui sont connus sous le nom de « second écran » (« second screen » en anglais). En effet, de nombreuses chaînes de radio ou de télévision permettent à leurs auditeurs d'utiliser leur tablette ou leur téléphone intelligent (« smartphone » en anglais) avec une application qu'ils leur fournissent afin d'enrichir leur expérience au cours d'un programme donné. Ici encore, la connaissance exacte et instantanée de la grille de programmation réellement diffusée par la chaîne de radio ou de télévision est un atout conséquent indisponible à ce jour, mais qui permettrait par exemple de diffuser des publicités ciblées sur le second écran, publicités dont il est bien connu qu'elles ont une valeur dix à cent fois plus importante que celles des bannières classiques. Par ailleurs, il est souvent désirable pour ces applications de pouvoir authentifier la chaîne ou le contenu regardés par un téléspectateur, afin par exemple de réserver l'usage du service aux utilisateurs effectivement en train de regarder une chaîne ou un contenu donnés. Le problème devient encore plus épineux si l'on considère les éditeurs d'applications mobiles proposant des applications "transversales" sur un ensemble de chaînes, et non plus sur une seule chaîne en particulier.
Pour toutes ces raisons, il existe un besoin d'offrir un dispositif de traitement de données qui soit efficace pour permettre la détection instantanée et exacte d'un programme de diffusion réelle d'une chaîne de radio ou de télévision.
L'invention vient améliorer la situation. A cet effet, l'invention propose un dispositif de traitement de données de données audio-vidéo en flux, comprenant un sélecteur agencé pour déterminer des données d'entrée relatives à un flux audio ou à un flux vidéo dans les données audio-vidéo en flux, un convertisseur agencé pour produire des données d'image à une fréquence choisie à partir des données d'entrée, un encodeur agencé pour produire des données compressées à partir des données d'image, et un projecteur agencé pour produire des données d'empreinte à partir des données compressées, le convertisseur étant agencé pour produire les données d'image sous la forme d'une image de dimension fixe, l'encodeur étant agencé pour travailler successivement sur chaque image décrite par les données d'image, et le projecteur étant agencé pour produire les données d'empreinte en flux à partir du poids des données compressées produites successivement. Selon d'autres aspects, le dispositif peut également présenter les caractéristiques suivantes :
le convertisseur est agencé pour segmenter des données d'entrée relatives à un flux audio en fenêtres successives d'échantillons, et pour convertir les données d'entrée de chaque fenêtre en données d'image successives en convertissant l'amplitude de chaque échantillon en une valeur de nuance de gris, le convertisseur étant en outre agencé pour produire des données d'image d'une fenêtre donnée sous la forme d'une image dans laquelle des pixels successifs d'une ligne donnée correspondent à des échantillons successifs des données d'entrée qui ont chacun une valeur de nuance de gris correspondante, et dans laquelle les lignes de l'image sont identiques les unes aux autres,
les fenêtres présentent une durée de 0,25 s, et sont séparées les unes des autres par un nombre d'échantillons permettant d'obtenir des données d'image à la fréquence choisie,
le convertisseur est agencé pour sélectionner des images dans des données d'entrée relatives à un flux vidéo en fonction de la fréquence choisie, et pour produire les données d'image en convertissant ces images à une dimension choisie,
la dimension choisie est 120* 160,
l'encodeur comprend un compresseur d'image à perte,
l'encodeur fonctionne par traitement par blocs et quantification,
- l'encodeur comprend un compresseur de la famille JPEG, ou un compresseur de type WebP,
le projecteur est agencé pour produire les données d'empreinte en projetant sur une plage donnée le poids des données compressées produites successivement selon une loi de projection choisie,
- la plage comprend les entiers entre 0 et 255, et la loi de projection est linéaire. D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels :
- la figure 1 représente un exemple d'environnement de mise en œuvre d'un dispositif selon l'invention,
- la figure 2 représente un dispositif selon l'invention,
- la figure 3 représente un exemple d'empreinte produite en utilisant un premier algorithme d'encodage,
- la figure 4 représente un exemple d'empreinte produite en utilisant un second algorithme d'encodage.
Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
La figure 1 représente un environnement de mise en œuvre d'un dispositif selon l'invention.
Dans cet environnement, un titulaire émet des contenus non marqués à partir d'un serveur de contenu 10. Les contenus émis sont reçus par des utilisateurs par divers dispositifs de consommation de média, comme un ordinateur 12, une tablette 14 ou une radio 16.
Ces dispositifs de consommation de média sont agencés pour mettre en œuvre le dispositif selon l'invention, et pour contacter un serveur d'empreinte 18 pour identifier en temps réel le contenu reçu par un dispositif de consommation, et pour renvoyer à ce dernier un identifiant de contenu et/ou d'autres informations complémentaires, comme de la publicité ciblée. II convient de comprendre que l'invention a une application très large, en ce sens que : - le titulaire peut émettre des contenus audio (par exemple une radio numérique, terrestre, ou par Internet, ou toute autre fourniture de contenu audio), comme des contenus vidéo (par exemple une chaîne de télévision, ou un fournisseur de VOD ou de contenu par Internet comme Youtube ou Dailymotion (marques déposées), ces contenus étant ainsi globalement qualifiés d' audio-vidéo, c'est-à-dire audio, vidéo, ou combinant les deux,
- les dispositifs de consommation peuvent comprendre tout dispositif propre à mettre en œuvre le dispositif décrit avec la figure 2, qu'il s'agisse (en plus des dispositifs déjà cités en exemple) d'un téléphone intelligent (smartphone en anglais), d'une télévision connectée, d'un boîtier de télévision connectée, d'un serveur dédié à l'analyse de contenus, ou de tout autre dispositif adapté,
- le serveur de contenu peut être connecté à des serveurs tiers pour la fourniture d'informations complémentaires du contenu identifié, ou bien être une boîte noire ( black box en anglais) qui réalise à la fois l'identification de contenu et la détermination d'informations complémentaires. Comme cela a été évoqué en introduction, une solution efficace en termes de coûts et de performance pour le type d'environnement représenté sur la figure 1 est recherché depuis longtemps. L'invention vient résoudre ce problème grâce à un dispositif qui produit une empreinte robuste, légère, et à faible coût de calcul. Le Demandeur a constaté que les solutions de marquage ou de génération d'empreinte connus cherchent à qualifier les contenus individuellement, comme s'il s'agissait d'entités autonomes, sans tenir compte de leur environnement d'émission. De ce fait, les marquages et empreintes résultants sont souvent fortement corrélés au contenu lui- même, et représentent en fait une sorte de simplification du contenu original, finalement assez proche de l'original. Partant du principe que les contenus sont principalement émis et consommés en flux dans le cadre des applications qui le concernent, le Demandeur a cherché à abstraire l'empreinte générée, tout en la corrélant fortement à l'information transportée par le contenu, sans à aboutir à une version « miniature » du contenu original.
Ces travaux ont abouti au dispositif représenté schématique sur la figure 2, qui sera maintenant décrite. Le dispositif selon l'invention comprend un sélecteur 20, un convertisseur 22, un encodeur 24 et un projecteur 26.
Le sélecteur 20 a pour fonction de démultiplexer le flux original, c'est-à-dire de recevoir des données audio-vidéo en flux, et d'en extraire la piste audio ou vidéo afin de former un flux de données d'entrée. Le flux de données d'entrée contient exclusivement des données audio ou exclusivement des données vidéo. Ainsi, si les données audio-vidéo en flux reçues concernent un flux audio, alors le sélecteur 20 produit des données d'entrée désignant l'amplitude des échantillons successifs de ce flux audio. Si les données audio-vidéo en flux reçues concernent un flux vidéo, alors le sélecteur 20 produit d'une part des données d'entrée correspondant au flux audio de la vidéo, et d'autre part des données d'entrée correspondant au flux image de la vidéo, par démultiplexage. En variante, le sélecteur 20 peut omettre de produire les données d'entrée correspondant au flux image de la vidéo.
Le sélecteur 20 appelle le convertisseur 22 avec les données d'entrée ent dat et produit en sortie des données d'image im da t. Cette étape est fondamentale, et sera expliquée plus en détail dans la suite. Le convertisseur 22 est agencé pour produire les données d'image différemment selon que les données d'entrée sont relatives à un flux audio ou à un flux vidéo.
Le convertisseur 22 est agencé pour produire des images successives de dimension fixe à partir des données d'entrée. Dans le cas de donnée d'entrée relatives à un flux audio, le convertisseur 22 reçoit donc un flux de données d'entrée, et découpe ce flux d'entrée en fenêtres successives. Chaque fenêtre contient un nombre d'échantillons dépendant de la longueur de la fenêtre et de la fréquence d'échantillonnage du flux audio correspondant aux données d'entrée. A chaque fenêtre correspondra des données d'image définissant une image en sortie. Pour chaque fenêtre, le convertisseur 22 convertit l'amplitude des échantillons successifs en valeurs en niveau de gris afin de définir une ligne de pixels dont la longueur correspond au nombre d'échantillons dans la fenêtre. Ensuite, la ligne de pixels est répétée un nombre de fois choisi pour former l'image correspondant à la fenêtre.
Dans l'exemple décrit ici, la ligne de pixels est copiée 8 fois, de sorte que la dimension des images produites est de L*8, où L désigne le nombre d'échantillons audio dans chaque fenêtre. En partant d'un flux audio encodé à 44,1 kHz, de fenêtre de 0,25 s, et pour une empreinte de fréquence 25 Hz, on obtient :
- des fenêtres contenant chacune 11 025 échantillons,
- les fenêtres successives étant décalées de 1764 échantillons l'une par rapport à l'autre,
- des images de dimension 11025*8. Lorsque le flux audio des données d'entrée présente une autre fréquence d'échantillonnage, par exemple 48 kHz, les données d'entrée peuvent être transformées pour les ramener à 44,1 kHz, ou le convertisseur 22 peut agir en produisant des pixels dont la valeur en niveaux de gris tient compte de ce ré-échantillonnage, par exemple par extrapolation. Lorsque le flux audio contient plusieurs canaux, l'échantillonnage peut être basé sur l'un des canaux uniquement, ou sur une moyenne des canaux.
Le calcul de la valeur en niveaux de gris pour chaque pixel dépend de la quantification du flux audio des données d'entrées. Dans l'exemple décrit ici, le convertisseur 22 produit des images codées en 256 niveaux de gris. Ainsi, si les données d'entrée représentent un flux quantifié sur 16 bits, il faudra projeter l'amplitude de chaque échantillon de [0 ; 65536] vers [0 ; 255]. Dans l'exemple décrit ici, la projection est linéaire. Cependant, la projection peut également être gaussienne, ou toute autre projection adaptée. Dans le cas où les données d'entrée sont relatives à un flux vidéo, le convertisseur 22 est agencé pour produire des images successives de dimension fixe. Pour rappel, un flux vidéo met en œuvre deux dispositifs principaux: un conteneur (dont le rôle est de transporter des paquets élémentaires d'information) et un codée (dont le rôle est de coder et décoder les paquets élémentaires). Quelque soit le type de conteneur et de codée vidéo utilisé par un flux, la décompression élémentaire de ce flux donne naissance à une série d'images ordonnées temporellement, de taille fixe (par exemple 1920x1080 pour un signal TV au format HD). Néanmoins, un ré-encodage de ce flux pour un terminal mobile (par exemple 720x576 pixels pour un signal TV au format SD) donnera lieu à des images de définition différente. Par ailleurs, d'autres paramètres de diffusion influencent la taille finale de l'image élémentaire d'un flux, comme l'ajout de barres noires horizontales pour transformer un signal 16:9 en signal 4:3. Afin d'éliminer la dépendance des étapes ultérieures de traitement à la taille de l'image originale, celle- ci est "retaillée" à une taille fixe, indépendamment du flux d'entrée. Cette situation est assez classique, et il s'agit donc de réduire une image de dimensions données par le flux vidéo à un format choisi, 120* 160 dans l'exemple ici décrit. Dans le cas où les images du flux vidéo des données d'entrée présentent un aspect différent de 120* 160, le convertisseur 22 peut opérer :
- en coupant des parties choisies de chaque image afin de retrouver le même ratio d'aspect que les images produites par le convertisseur 22 (c'est-à-dire 3/4), ou
- en extrapolant des parties choisies de chaque image afin de retrouver le même ratio d'aspect que les images produites par le convertisseur 22 (c'est-à-dire 3/4), ou
- en produisant des images dont le ratio d'aspect correspond à celui des images des données d'entrées, c'est-à-dire 120*(K* 160) où K est un facteur de compensation d'aspect. Comme pour le cas où les données d'entrée concernent un flux audio, il est prévu de produire un flux d'empreinte à 25 Hz. Le convertisseur 22 est donc agencé pour sélectionner une image tous les l/25e de secondes dans les données d'entrées. Dans le cas où le flux vidéo des données d'entrée est présente une cadence différente de 25 images par seconde, par exemple à 30 images par seconde, le convertisseur 22 peut réaliser une extrapolation d'images entourant chaque marqueur de temps à 25 Hz. En sortie, le convertisseur 22 transmet les données d'image correspondant à chaque image successive tirée des données d'entrée à l'encodeur 24. L'encodeur 24 a pour fonction de produire des données compressées comp dat qui constituent une version compressée des données d'image. Dans l'exemple décrit ici, l'encodeur 24 est l'encodeur JPEG standard, libre, développé et distribué par l'Independent JPEG Group. En variante, l'encodeur 24 pourrait également être un l'encodeur WebP open-source développé par Google. L'encodeur 24 a pour particularité de réaliser un encodage à perte fonctionnant par traitement par blocs et quantification. D'autres algorithmes d'encodage d'image présentant des caractéristiques similaires pourront être envisagés.
En sortie, les données compressées sont transmises au projecteur 26. Le projecteur 26 vient générer le flux de données d'empreinte prnt dat en prenant le poids informatiques des données compressées générées successivement par l'encodeur 24, et en les projetant sur l'intervalle [0 ; 255]. Dans l'exemple décrit ici, la projection est linéaire. Cependant, la projection peut également être gaussienne, ou toute autre projection adaptée. Les figures 3 et 4 représentent des exemples d'empreintes produites à partir d'un encodeur JPEG pour la figure 3, et WebP pour la figure 4. De manière étonnante, ces empreintes sont presque superposables. L'utilisation de l'encodeur 24 rend les données d'empreinte robustes au bruit de transmission du flux définissant les données d'entrée, et produit des données compressées dont le poids est une mesure intrinsèque de la quantité information (au sens de Shannon) portée par les données d'image. Ainsi les données d'empreinte sont abstraites par rapport aux données d'entrée, tout en leur étant fortement liées. De plus, si des données d'empreintes prises isolément ne sont pas toujours discriminantes, le fait qu'elles soient générées en flux rend le procédé de génération d'empreinte particulièrement robuste, répétable et discriminant. Ainsi le flux d'empreintes présente un caractère d'invariance par rapport aux transformations ou pertes pouvant affecter un signal vidéo ou audio lors de sa transmission et de sa restitution (bruit, ré-encodage, redimensionnement, changement de couleurs, de contraste ou de brillance) et un pouvoir descriptif permettant d'identifier de manière unique n'importe quel extrait de ce flux. Enfin, le procédé de génération est très peu coûteux en temps de calcul, ce qui permet de générer une empreinte robuste en temps réel.
La conversion d'un flux de données d'entrées relatives à un flux audio ou vidéo indifféremment en données d'images successives peut paraître étonnante. Il s'agit là d'une découverte majeure du Demandeur.
En effet, on a vu que le Demandeur a orienté ses recherches sur la génération d'empreinte en tenant compte du fait que les contenus sont émis en flux. Ce faisant, il a découvert qu'il est avantageux de produire une empreinte également sous forme de flux. Poursuivant ses recherches, le Demandeur a identifié que les éléments élémentaires du flux (les images pour un flux vidéo, et les fenêtres d'échantillons pour un flux audio) représentent des informations de nature instantanée statique/spatiale. Cette découverte l'a en revanche amené à écarter les encodeurs vidéo ou audio générateurs d'empreinte qui corrèlent intrinsèquement les éléments du flux pour tirer partie des redondances entre les éléments élémentaires successifs d'un flux.
C'est ainsi que le Demandeur s'est intéressé aux algorithmes de compression d'image comme le JPEG, qui permettent de réduire le bruit, tout en ne préservant que la quantité « utile » des informations, qui est reflétée par le poids variable de chaque image. Cela l'a mené à la structure de conversion/encodage/projection du poids qu'il a appliqué aux flux vidéo. Poursuivant ses recherches, le Demandeur a également découvert que cet avantage est obtenu aussi bien lorsque qu'il s'agit d'un flux audio que d'un flux vidéo, et que la nature audio ou vidéo du flux pour lequel est généré l'empreinte importe moins que le fait que ce flux transporte des informations de nature séquentielle et instantanée.
Il en résulte un procédé de génération d'empreinte très léger tant du point de vue du poids des empreintes générées que du coût de génération des empreintes. Dans ce qui précède, il est considéré que les données audio-vidéo en flux sont de nature numérique. En variante, le dispositif selon l'invention pourra comprendre un étage d'acquisition analogique et de conversion numérique selon les formats préconisés décrits plus haut.
De même les exemples décrits ici préconisent un flux audio de données d'entrée à 44,1 kHz, avec des fenêtres de 0,25 s, et pour un flux de données d'empreinte à 25 Hz, et un flux vidéo de données d'entrée à 25 images par secondes, avec un ratio d'aspect de 3/4. Ces éléments particuliers pourront varier en fonction des applications recherchées.
Enfin, en plus de la fourniture de service de tiers de confiance automatisé, ainsi que d'informations complémentaires et/ou de publicité ciblée, le dispositif de l'invention peut également servir à détecter la présence de contenus illicites à l'émission sur les plateformes de partage de contenu, par détection à l'entrée avant tout partage, ce qui offre une grande sécurité aux hébergeurs de contenu.

Claims

Revendications
Dispositif d'analyse de données audio-vidéo en flux, caractérisé en ce qu'il comprend un sélecteur (20) agencé pour déterminer des données d'entrée relatives à un flux audio ou à un flux vidéo dans les données audio-vidéo en flux, un convertisseur (22) agencé pour produire des données d'image à une fréquence choisie à partir des données d'entrée, un encodeur (24) agencé pour produire des données compressées à partir des données d'image, et un projecteur (26) agencé pour produire des données d'empreinte à partir des données compressées, le convertisseur (22) étant agencé pour produire les données d'image sous la forme d'une image de dimension fixe, l'encodeur (24) étant agencé pour travailler successivement sur chaque image décrite par les données d'image, et le projecteur (26) étant agencé pour produire les données d'empreinte en flux à partir du poids des données compressées produites successivement.
Dispositif selon la revendication 1 , dans lequel le convertisseur (22) est agencé pour segmenter des données d'entrée relatives à un flux audio en fenêtres successives d'échantillons, et pour convertir les données d'entrée de chaque fenêtre en données d'image successives en convertissant l'amplitude de chaque échantillon en une valeur de nuance de gris, le convertisseur (22) étant en outre agencé pour produire des données d'image d'une fenêtre donnée sous la forme d'une image dans laquelle des pixels successifs d'une ligne donnée correspondent à des échantillons successifs des données d'entrée qui ont chacun une valeur de nuance de gris correspondante, et dans laquelle les lignes de l'image sont identiques les unes aux autres.
Dispositif selon la revendication 2, les fenêtres présentent une durée de 0,25 s, et sont séparées les unes des autres par un nombre d'échantillons permettant d'obtenir des données d'image à la fréquence choisie.
Dispositif selon la revendication 1 , dans lequel le convertisseur (22) est agencé pour sélectionner des images dans des données d'entrée relatives à un flux vidéo en fonction de la fréquence choisie, et pour produire les données d'image en convertissant ces images à une dimension choisie.
5. Dispositif selon la revendication 4, dans lequel la dimension choisie est 120* 160.
6. Dispositif selon l'une des revendications précédentes, dans lequel l'encodeur (24) comprend un compresseur d'image à perte.
7. Dispositif selon la revendication 6, dans lequel l'encodeur (24) fonctionne par traitement par blocs et quantification.
8. Dispositif selon la revendication 7, dans lequel l'encodeur (24) comprend un compresseur de la famille JPEG, ou un compresseur de type WebP.
9. Dispositif selon l'une des revendications précédentes, dans lequel le projecteur (26) est agencé pour produire les données d'empreinte en projetant sur une plage donnée le poids des données compressées produites successivement selon une loi de projection choisie.
10. Dispositif selon la revendication 9, dans lequel la plage comprend les entiers entre 0 et 255, et dans lequel la loi de projection est linéaire.
EP14749863.8A 2013-06-12 2014-06-10 Dispositif de traitement de données Withdrawn EP3008910A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1355433A FR3007235B1 (fr) 2013-06-12 2013-06-12 Dispositif de traitement de donnees
PCT/FR2014/051377 WO2014199059A1 (fr) 2013-06-12 2014-06-10 Dispositif de traitement de données

Publications (1)

Publication Number Publication Date
EP3008910A1 true EP3008910A1 (fr) 2016-04-20

Family

ID=49274791

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14749863.8A Withdrawn EP3008910A1 (fr) 2013-06-12 2014-06-10 Dispositif de traitement de données

Country Status (4)

Country Link
US (1) US20160156993A1 (fr)
EP (1) EP3008910A1 (fr)
FR (1) FR3007235B1 (fr)
WO (1) WO2014199059A1 (fr)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760465B2 (en) * 2001-03-30 2004-07-06 Intel Corporation Mechanism for tracking colored objects in a video sequence
US20040194130A1 (en) * 2003-03-07 2004-09-30 Richard Konig Method and system for advertisement detection and subsitution
CA2638465A1 (fr) * 2007-08-01 2009-02-01 Jean-Yves Chouinard Filtres d'apprentissage permettant d'ameliorer la qualite des images fixes et des images video a codage de bloc
US8805827B2 (en) * 2011-08-23 2014-08-12 Dialogic (Us) Inc. Content identification using fingerprint matching
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9684941B2 (en) * 2012-10-29 2017-06-20 Digimarc Corporation Determining pose for use with digital watermarking, fingerprinting and augmented reality

Also Published As

Publication number Publication date
US20160156993A1 (en) 2016-06-02
WO2014199059A1 (fr) 2014-12-18
FR3007235A1 (fr) 2014-12-19
FR3007235B1 (fr) 2015-07-10

Similar Documents

Publication Publication Date Title
FR2894421A1 (fr) Procede et dispositif de decodage d'un flux video code suivant un codage hierarchique
FR2840495A1 (fr) Procede et dispositif de selection d'une methode de transcodage parmi un ensemble de methodes de transcodage
FR2931610A1 (fr) Procede et un dispositif de transmission de donnees d'images
EP2700226A1 (fr) Procedes et appareils de production et de traitement de representations de scenes multimedias
Deng et al. Visual signal quality assessment
EP3707900A1 (fr) Procede de formation d'une sequence d'images de sortie a partir d'une sequence d'images d'entree, procede de reconstruction d'une sequence d'images d'entree a partir d'une sequence d'images de sortie, dispositifs, equipement serveur, equipement client et programmes d'ordinateurs associes
FR2963190A1 (fr) Procede et dispositif de codage d'une sequence d'images
Trpkovski et al. Automatic hotel photo quality assessment based on visual features
FR3021489A1 (fr) Procede de telechargement adaptatif de contenus numeriques pour plusieurs ecrans
EP2368367B1 (fr) Système et procédé interactif pour la transmission sur un réseau bas débit d'images clefs sélectionnées dans un flux video
Vidhya et al. Evaluation and performance analysis of Chinese remainder theorem and its application to lossless image compression
Hossain et al. A Symbiotic Digital Signage system based on display to display communication
Pateux et al. Practical watermarking scheme based on wide spread spectrum and game theory
Cemiloglu et al. Blind video quality assessment via spatiotemporal statistical analysis of adaptive cube size 3D‐DCT coefficients
US10719715B2 (en) Method and system for adaptively switching detection strategies for watermarked and non-watermarked real-time televised advertisements
US20180359523A1 (en) Method and system for progressive penalty and reward based ad scoring for detection of ads
WO2014199059A1 (fr) Dispositif de traitement de données
FR3053555A1 (fr) Procede de codage d'une image numerique, procede de decodage, dispositifs, terminal et programmes d'ordinateurs associes
US20210241426A1 (en) Method for Denoising Omnidirectional Videos and Rectified Videos
FR2872972A1 (fr) Procede et dispositif de transmission video entre un serveur et un client
WO2014096638A1 (fr) Procédé et dispositif de transmission d'une séquence d'images basé sur un codage région adaptatif
EP2364489A1 (fr) Procédé et dispositif pour l'enfouissement d'une séquence binaire dans un flux video compressé
Menkovski Computational Inference and Control of Quality in Multimedia Services
FR2988959A1 (fr) Procede de tatouage avec streaming adaptatif
US20240129577A1 (en) System and method for audiovisual content analysis on edge devices

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20160111

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20170103