WO2021123209A1 - Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées - Google Patents

Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées Download PDF

Info

Publication number
WO2021123209A1
WO2021123209A1 PCT/EP2020/087081 EP2020087081W WO2021123209A1 WO 2021123209 A1 WO2021123209 A1 WO 2021123209A1 EP 2020087081 W EP2020087081 W EP 2020087081W WO 2021123209 A1 WO2021123209 A1 WO 2021123209A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
image
type
segmentation
reference image
Prior art date
Application number
PCT/EP2020/087081
Other languages
English (en)
Inventor
Laurent ROSTAING
Alain Rouh
Catalin Codreanu
Original Assignee
Carrus Gaming
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Carrus Gaming filed Critical Carrus Gaming
Priority to CA3161385A priority Critical patent/CA3161385A1/fr
Priority to EP20838959.3A priority patent/EP4078435A1/fr
Publication of WO2021123209A1 publication Critical patent/WO2021123209A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Definitions

  • TITLE Process for segmenting an input image representing a document containing structured information
  • the present invention relates to the field of the identification of documents comprising structured information, for example in the form of check boxes. More particularly it relates to a method of identification (classification) and segmentation of such a document, for example a game bulletin, in an image taken in an uncontrolled environment.
  • document comprising structured information will be understood to mean an element, generally on paper medium having a predefined shape and patterns, comprising indications and a set of areas to be completed, for example boxes to be checked.
  • a document may for example be a game slip (lottery for example), a form, or a multiple choice questionnaire.
  • This method thus makes it possible to determine a zone of presence and a segmentation of the object, resulting from the analysis of the movement between the images.
  • the performance of the point of interest extraction of this approach is limited by the absence of a reference image.
  • the last document added can cause a movement of documents located below, some parts of which can then be incorrectly detected, or that may prevent correct detection of the last added document.
  • this method has the major drawback that it does not make it possible to identify the document model.
  • Another method allows the identification of at least one sign of a deformed document based on the segmentation of candidate sign regions, then the joint identification of these candidate sign regions and a deformation model compared to previously stored document models.
  • this method has certain drawbacks, first of all, it does not allow classification and segmentation of an image, its purpose is simply to decode a given document from a document template.
  • the method described in this patent requires manual delineation of the regions of the document comprising information in order to identify it.
  • this process does not include a segmentation step, it can be disturbed by the presence of other documents in the field of view of the acquisition system used.
  • the present invention relates to a method of segmenting an input image representing a document comprising structured information, the method comprising the implementation by processing means of the steps of:
  • C2 Determination of a document type by a classification method, said type being chosen from a set of possible types each associated with a reference image of the document type;
  • the method further comprises a step C1) of acquiring an image comprising the document comprising structured information to be segmented, carried out before step C2)
  • the documents can be game tickets with check boxes;
  • the classification method can be a deep neural network, and more particularly a convolutional type deep neural network;
  • the classification method can be a point of interest type method combined with a partitioning of points of interest;
  • - step C1) of acquiring an image comprising at least one document comprising structured information to be segmented further comprises a step of sub-sampling the image comprising the at least one document comprising structured information to be segmented;
  • step C3 the estimation of the parameters of the geometric transformation of step C3) is carried out by a deep neural network:
  • the deep neural network is selected from a plurality of neural networks each corresponding to a type of document, from the type of document determined in step C2);
  • the segmentation method comprises a preliminary step of increasing the training data from a single reference image for each type of document to be segmented, the step of increasing the training data comprising, for each type of documents, the implementation by means of processing one and / or the other of the stages of:
  • step C5 Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as we wish to have training examples for the type of document; a step of training a neural network implemented in step C2) and / or in step C3) on the basis of the augmented training data.
  • the invention relates to a method of increasing the training data for the training of a segmentation method according to the first aspect, from a single reference image for each type of document to be segmenting, the method comprising, for each type of document, the implementation by processing means of the steps of:
  • the method further comprises a step E1) of acquiring a reference image of the type of document produced before step E2).
  • the geometrical deformations can be deformations represented by affine functions
  • the method further comprises a masking step E3bis), making it possible to mask the areas of the reference image of the document type which may be different from one document of the same type to another by applying a texture randomly generated or selected in a list of textures, representing a variable pattern.
  • the invention further provides a computer program product comprising code instructions for executing a segmentation method according to the first aspect or a training data augmentation method according to the second aspect, when said program is executed on a computer; and a storage means readable by computer equipment on which a computer program product comprising code instructions for the execution of a segmentation method according to the first aspect or of a method of increasing the training data according to the second aspect, when said program is executed on a computer
  • FIG. 1 is a diagram of an architecture for the implementation of the method according to the invention.
  • FIG.2 shows the steps of one embodiment of the segmentation method according to the invention
  • FIG. 3 shows the steps of one embodiment of the data augmentation method according to the invention
  • Figure 4 illustrates examples of images generated by the data augmentation process.
  • FIG. 1 a segmentation server 1 (implementing the segmentation method), a learning server 3 (implementing the method of 'learning), a database 4 (used to store the reference images of the different types of documents) and a client 2 (having images of documents to be segmented), for example a terminal of a user such as a laptop or smartphone.
  • a segmentation server 1 implementing the segmentation method
  • a learning server 3 implementing the method of 'learning
  • a database 4 used to store the reference images of the different types of documents
  • client 2 having images of documents to be segmented
  • the segmentation server 1 can be grouped together with the client 2
  • the learning server can understand the database.
  • the equipment 1, 2, and 3 are typically remote computer equipment connected to a wide area network 10 such as the Internet network for the exchange of data; each comprises data processing means 11, 21, 31 respectively of processor type, and data storage means 12, 22, 32 such as a computer memory, for example a disk.
  • the client 2 further comprises image acquisition means 23 in order to obtain images of the documents to be segmented.
  • the database 4 can be either a server independent of the own data processing and storage means, or a file server (for example a NAS server), or a database management system integrated into the server. learning. This database stores reference images for each type of document to be segmented.
  • reference image we mean an image of good quality (without shooting defect) comprising only the document to scale (therefore not distorted), such an image can be for example a source file generated by a drawing software. computer assisted.
  • a reference image does not include any interpreted information relating to the document.
  • the reference image can in particular be an image representative of the document free of any filling of the areas to be filled by a user of the document.
  • a document represented in an image we mean in a broad sense the position, orientation and outline of that document in that image.
  • the shape includes the position of the center of gravity of this contour in the image of the document, and the orientation in the plane of this contour with respect to an orthonormal coordinate system of the image.
  • the same document can be imaged in various places with respect to the sensor, in different orientations (more or less rotated with respect to the orthonormal reference mark of the sensor, or even at 180 °), and / or deformed in the case of a flexible document. .
  • the idea of the proposed methods is to allow the use and training of segmentation methods requiring large amounts of data, such as neural networks, by being satisfied with one example per class (or type of document) when training and by applying an image augmentation chain sufficiently representative of the images of real documents and thus making it possible to have a sufficient volume of images for learning the segmentation method.
  • the segmentation process is divided into a classification sub-process followed by an estimation of the parameters of a geometric transformation which, when applied to the reference image of the document type determined by the classification, matches the shape of the reference image to the shape of the document in the image to be segmented. It thus makes it possible to segment documents from reference documents whose shape and contours are known in advance without having to train a segmentation method on examples where each pixel of the image has been annotated manually.
  • the separation of the steps of determining a segmentation and classification mask simplifies the addition of a new type of document to the model because it is then not necessary to re-train the entire model , only the portions that have changed.
  • model is understood to mean the parts of the neural network (s) which are involved in taking into account a new type of document.
  • neural networks make it possible to reduce the necessary calculation times compared to the state of the art, in fact unlike point-of-interest methods which do not necessarily require training such as neural networks, but have a computation time depending on the complexity of the input data, neural networks on the other hand make it possible to have a constant computation time whatever the input image during classification.
  • the decomposition, in some embodiments, of the classification and the determination of the segmentation mask into two different tasks also makes it possible to reduce the computation time compared to a method performing the classification and the determination. of the segmentation mask at the same time.
  • the method of determining the segmentation mask being specific to each type of document, and therefore less complex, and the classification being a simpler operation than the segmentation, the computational load induced by the use of these two methods is lower than that of a process performing both operations at the same time.
  • the segmentation method comprises a first step, C1, of acquiring an image to be processed comprising the document to be classified and segmented.
  • This image can be acquired either by shooting means 23, integrated into the client 2, or be acquired via a data exchange network 10 such as the Internet, this step can also include a sub-sampling of the image acquired in order to simplify its processing. If the document to be classified includes areas to be completed, one or more of these areas to be completed may have been completed by a user of the document before the acquisition step.
  • the image to be processed comprises the document to be classified and segmented, but also a region of space around the document to be classified.
  • the form of the document to be classified in the image is unknown.
  • the region of the space around the document to be classified can be very variable depending on the images. It can include a support for the document to be classified. If the document to be imaged is placed on one or more other documents during acquisition, it may include parts of this or these other documents if the stack of documents is not perfectly superimposed.
  • the region of space around the document may include a remote background depending on the environment of the document during the acquisition.
  • the image may in particular contain repeating patterns, as is the case for example for game slips, which include several boxes of identical shape.
  • the image to be processed is then transmitted to a classifier in order to determine the type of the document during a step C2, this classification can then be carried out by a standard classification algorithm, for example a convolutional neural network (CNN) such as VGG16, DenseNet, ResNet etc. or a point of interest matching method such as SIFT or SURF (“Speeded Up Robust Features ” ), as will be detailed below.
  • CNN convolutional neural network
  • SIFT Speeded Up Robust Features
  • the classification is carried out by a convolutional neural network.
  • a neural network was trained to determine the document type from an input image.
  • the acquired image is supplied as input to the neural network, and the neural network outputs the class of the document appearing on the image.
  • the class of the document can for example be chosen from the following list: ⁇ passport; ID card ; driver's license ; membership card ; Bank note ; game bulletin; form ; multiple choice test ⁇ .
  • the “membership card” can for example be a card issued to certain people in certain cases (for example, mutual insurance card, loyalty card, etc.).
  • the document class can also include a subclass. For example, in the case of a "game bulletin", the document class can also include a subclass relating to an identifier of the game concerned.
  • a regression method is used to estimate the parameters of a geometric transformation (for example an affine transformation) which, when applied to the reference image of the identified document type , allows you to find the shape of the document present in the image to be processed.
  • This regression can be done using a deep neural network.
  • a respective specific neural network is used for each type of document identified during the classification step.
  • a neural network was trained to determine, from an input image, the parameters of a geometric transformation to apply to the reference document associated with the document type to make it correspond to the input image.
  • the acquired image is supplied as input to the neural network, as well as the type of document determined in the previous step, and the neural network provides geometric transformation parameters as output.
  • the geometric transformation parameters can for example comprise the parameters of a translation of the center of gravity, of a planar rotation, and of a deformation.
  • a neural network of a type similar to that used for the classification step preferably a CNN such as VGG16, DenseNet, ResNet etc.
  • a dense connection layer intended to estimate the parameters of the geometric transformation.
  • the classification network is also possible to combine the classification network and the regression network by reusing the first layers of the classification network for the regression.
  • a single neural network is used which, from the input image, estimates both the type of document and the geometric parameters of the transformation.
  • the classification is carried out by a method by correspondence of points of interest.
  • a document model comprising a reference image of this type of document.
  • the document model also includes structured information relating to interpreted information (metadata) relating to the reference document. This interpreted information includes in particular the nature and position of points of interest in the reference document.
  • the document type classification step comprises, for each document type, image processing applied to the acquired image with a view to determining, on the acquired image, points of interest, then a setting step. in correspondence of these points of interest determined on the acquired image with the points of interest determined in the document model for the reference image.
  • the image is classified as corresponding to a document type for the type of document for which the mapping of the points of interest of the acquired image with those of the document model for that type of document gives the best results.
  • the point-of-interest correspondence method includes a partitioning of the points of interest into different regions each treated independently.
  • a neural network is then applied to determine the parameters of the geometric transformation, as described above in the context of the first example.
  • a classification step is implemented as described above in the first example, by means of a neural network.
  • the regression can then be made from the corners of the document to be segmented if it has a polygonal shape or from marking points added to all documents of the same type. It suffices then to find the parameters of a geometric transformation which makes it possible to correspond to a point or side of the document in the reference image of the document type, the point or equivalent side in the document to be segmented.
  • a segmentation mask is created by applying the geometric transformation calculated in the previous step to the outline of the document of the reference image in order to obtain the outline of the present document. in the image to be processed.
  • This segmentation mask thus makes it possible to determine the shape (position, orientation, outline) of the document in the acquired image. This makes it possible in particular to overcome the edges of documents placed under the document to be analyzed, visible in the acquired image.
  • a method of increasing training data is proposed. This method is implemented by the processing means 31 of the training server, in order to generate a number of training images sufficient to allow training of an efficient segmentation model. For this, a single good quality reference image can be used for each type of document to be identified, acquired during a step E1 either by shooting means 23, or as a source file that is the original document type reference image.
  • Random geometric deformations are then simulated in step E2, by applying a geometric transformation (for example an affine transformation), the parameters of which have been determined randomly, to the reference image, thus generating images that have undergone translations, symmetries, homothety, etc.
  • a geometric transformation for example an affine transformation
  • textures representing background images are created by generating an image with random patterns.
  • the images of documents having undergone deformations generated in the previous step are then overlaid on the background images during a step E3.
  • the background images provision can in particular be made to generate images comprising parts simulating portions of documents placed partially under the document to be analyzed, and protruding from below it. It is also possible to add a mask on certain parts of the image of the document if it includes one or more regions that may be different from one document of the same type to another and thus improve the generalization capacity of the trained model.
  • a texture can be generated in the same way as the background images and applied to the desired region of the image, the masking texture preferably being different from the background texture.
  • the masking texture preferably being different from the background texture.
  • textures showing a zone to be filled filled in manually or by computer by a character or a series of characters.
  • photometric degradations are applied, during a step E4, to the images generated in the previous step.
  • These degradations can be a blurring effect, a change in the brightness of the image or contrast, or alterations in the colors of the image.
  • digital noise for example Gaussian noise
  • Examples of documents produced by the data augmentation process are shown in Figure 4.
  • the documents have an outline, which can be polygonal, or include curved areas, as in the example shown of a heart shape.
  • the document may include a peripheral cartridge of a certain width and uniform color. As seen in Figure 4, the image may only include part of the document. This is particularly the case if a geometric transform has been applied to the reference document which moves part of the document out of frame.
  • the document to be analyzed is a structured document implies the development of neural networks which are specific to the processing of structured documents.
  • the documents to be analyzed essentially comprise generic zones for the type of document in question, and personalized zones (for example, a character string specific to the holder of a passport, or a plurality of boxes checked and not checked. of a game report), so that the neural network will be formed in a particular way during the learning process.
  • personalized zones for example, a character string specific to the holder of a passport, or a plurality of boxes checked and not checked. of a game report
  • the check boxes in the reference document form easily recognizable regular patterns.
  • a document to be analyzed will have some of these boxes checked, precisely in a different way between the ballots, or even checked in a different way between them, which makes it difficult to rely on the recognition of this regular pattern for classification.
  • the system which has just been described can be easily enriched to process a new type of document.
  • a reference image of the game slip of the new game is used.
  • a set of images is generated from the reference image, as described above.
  • the neural network determining the document type is then re-trained with these new training images.
  • a neural network for estimating the deformation parameters is created and trained with these training images.
  • the invention relates to a computer program product comprising code instructions for execution (in particular on the data processing means 11, 21 and 31 of the servers 1 and / or 3, and / or of the client 2) of a method of segmenting a document comprising information structured according to at least one reference associated with a type of document, the document being present in an input image, as well as of an augmentation method training data for training the segmentation process described from a single reference image for each type of document to be classified and segmented.
  • the invention also relates to storage means readable by computer equipment (a memory 12, 22 and 32 of the servers 1 and / or 3, and / or of the client 2) on which this computer program product is found. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

La présente invention concerne un procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées, le procédé comprenant des étapes de : C2) Détermination d'un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document, l'image de référence étant une image comportant uniquement le document; C3) Estimation des paramètres d'une transformation géométrique à appliquer à l'image de référence du type de document déterminé à l'étape C2) pour obtenir le document tel que représenté par l'image d'entrée; C4) Détermination d'un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l'étape C3) et de l'image de référence du type de document déterminé à l'étape C2).

Description

TITRE : Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées
DOMAINE TECHNIQUE GENERAL
La présente invention concerne le domaine de l’identification des documents comportant des informations structurées, par exemple sous la forme de cases à cocher. Plus particulièrement elle concerne une méthode d’identification (classification) et de segmentation d’un tel document, par exemple un bulletin de jeu, dans une image prise dans un environnement non contrôlé.
ETAT DE L’ART
Par « document comportant des informations structurées » on comprendra un élément, généralement sur support papier ayant une forme et des motifs prédéfinis, comportant des indications et un ensemble de zones à remplir, par exemple des cases à cocher. Un tel document peut-être par exemple un bulletin de jeu (de loterie par exemple), un formulaire, ou un questionnaire à choix multiples.
Le traitement des documents comportant des informations structurées a connu de nombreux développements grâce aux avancées faites dans le domaine de la vision par ordinateur.
Des procédés ont ainsi été proposés tel que celui décrit dans le brevet FR2983607, permettant le suivi d’un objet dans une séquence d’au moins deux images, reposant sur une extraction de points caractéristiques dans les images, par exemple par des descripteurs SIFT (« scale-invariant feature transform »), ainsi qu’une mise en correspondance des points caractéristiques entre les images. Ce procédé comprend une étape de sélection de points dits « singuliers » qui permet de réduire les ambiguïtés dans le cas de documents qui présentent des motifs répétitifs comme les cases des bulletins de jeu. Il permet d’assurer le suivi d’un document présent dans un flux vidéo, sans que le modèle de document ne soit connu au préalable, et exploite un ensemble de points d’intérêts présents dans les images. Ce procédé permet ainsi de déterminer une zone de présence et une segmentation de l’objet, issue de l’analyse du mouvement entre les images. Cependant, les performances de l’extraction des points d’intérêt de cette approche sont limitées par l’absence d’image de référence. En fonction des documents il peut y avoir des régions avec peu ou pas de points caractéristiques, qui seront alors mal détectées par le procédé. Enfin dans les cas d’empilement de documents, le dernier document ajouté peut provoquer un mouvement de documents situés en dessous, dont certaines parties peuvent alors être incorrectement détectées, ou alors qui peut empêcher une détection correcte du dernier document ajouté. Enfin ce procédé a comme inconvénient majeur qu’il ne permet pas d’identifier le modèle de document.
Un autre procédé, proposé dans le brevet FR3027136, permet l’identification d’au moins un signe d’un document déformé reposant sur la segmentation de régions de signes candidates, puis l’identification conjointe de ces régions de signes candidates et d’un modèle de déformation par rapport à des modèles de documents préalablement stockés. Cependant, ce procédé présente certains inconvénients, tout d’abord, il ne permet pas de classifier et segmenter une image, son but est simplement de décoder un document donné à partir d’un patron de document. De plus, le procédé décrit dans ce brevet requiert une délimitation manuelle des régions du document comprenant des informations afin d’identifier celui-ci. Enfin, comme ce procédé ne comprend pas d’étape de segmentation, il peut être perturbé par la présence d’autres documents dans le champ de vision du système d’acquisition utilisé.
PRESENTATION DE L’INVENTION
Selon un premier aspect, la présente invention concerne un procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement des étapes de :
C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document ;
C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape C2) pour obtenir le document tel que représenté par l’image d’entrée ;
C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape C3) et de l’image de référence du type de document déterminé à l’étape C2).
Selon d’autres caractéristiques avantageuses et non limitatives :
- le procédé comprend en outre une étape C1) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape C2)
- les documents peuvent être des tickets de jeux comportant des cases à cocher ; - la méthode de classification peut être un réseau de neurones profond, et plus particulièrement un réseau de neurones profond de type convolutif ;
- la méthode de classification peut être une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt ; - l’étape C1 ) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous- échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter ;
- les déformations géométriques sont des déformations représentées par des fonctions affines ;
- l’estimation des paramètres de la transformation géométrique de l’étape C3) est réalisée par un réseau de neurones profond :
- le réseau de neurones profond est sélectionné parmi une pluralité de réseaux de neurones correspondant chacun à un type de document, à partir du type de document déterminé à l’étape C2) ;
- le procédé de segmentation comprend une étape préalable d’augmentation des données d’entrainement à partir d’une unique image de référence pour chaque type de documents à segmenter, l’étape d’augmentation des données d’entrainement comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement l’une et/ou l’autre des étapes de :
E2) Simulation de déformations géométriques aléatoires ;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ; E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document ; une étape d’entrainement d’un réseau de neurones mis en oeuvre à l’étape C2) et/ou à l’étape C3) sur la base des données d’entrainement augmentées.
Selon un second aspect, l’invention concerne un procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect, à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement des étapes de :
E2) Simulation de déformations géométriques aléatoires ;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document.
Selon d’autres caractéristiques avantageuses et non limitatives :
- le procédé comprend en outre une étape E1) d’acquisition d’une image de référence du type de document réalisée avant l’étape E2).
- les déformations géométriques peuvent être des déformations représentées par des fonctions affines ;
- le procédé comprend en outre une étape E3bis) de masquage, permettant de masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable.
L’invention propose en outre un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur
PRESENTATION DES FIGURES
D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels : [Fig. 1] la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ;
[Fig.2] la figure 2 représente les étapes d’un mode de réalisation du procédé de segmentation selon l’invention ;
[Fig. 3] la figure 3 représente les étapes d’un mode de réalisation du procédé d’augmentation de données selon l’invention ; [Fig. 4] la figure 4 illustre des exemples d’images générées par le procédé d’augmentation de données.
DESCRIPTION DETAILLEE Architecture
Selon deux aspects complémentaires de l’invention, sont proposés :
- Un procédé de segmentation d’un document comportant des informations structurées ;
- Un Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect à partir d’une unique image de référence pour chaque type de documents à segmenter.
Ces procédés sont mis en œuvre au sein d’une architecture telle que représentée par la figure 1 , grâce à un serveur de segmentation 1 (mettant en œuvre le procédé de segmentation), un serveur d’apprentissage 3 (mettant en œuvre le procédé d’apprentissage), une base de données 4 (servant à stocker les images de référence des différents types de documents) et un client 2 (disposant d’images de documents à segmenter), par exemple un terminal d’un utilisateur tel qu’un ordinateur portable ou un smartphone. Il est tout à fait possible que certains ou la totalité de ces équipements soient confondus, par exemple le serveur de segmentation 1 peut être regroupé avec le client 2, et le serveur d’apprentissage peut comprendre la base de données.
Les équipements 1 , 2, et 3 sont typiquement des équipements informatiques distants reliés à un réseau étendu 10 tel que le réseau internet pour l’échange des données ; chacun comprend des moyens de traitement de données respectivement 11 , 21 , 31 de type processeur, et des moyens de stockage de données 12, 22, 32 tel qu’une mémoire informatique, par exemple un disque. Le client 2 comprend en outre des moyens d’acquisition d’images 23 afin d’obtenir des images des documents à segmenter. La base de données 4, peut être soit un serveur indépendant des moyens de traitement de données et de stockage propres, soit un serveur de fichier (par exemple un serveur NAS), soit un système de gestion de base de données intégré au serveur d’apprentissage. Cette base de données stocke des images de référence pour chaque type de documents à segmenter.
Par image de référence , on entend une image de bonne qualité (sans défaut de prise de vue) comportant uniquement le document à l’échelle (donc non déformé), une telle image peut être par exemple un fichier source généré par un logiciel de dessin assisté par ordinateur. Notamment, une telle image de référence ne comprend aucune information interprétée relative au document. L’ image de référence peut notamment être une image représentative du document vierge de tout remplissage des zones à remplir par un utilisateur du document.
Par forme d’un document représenté sur une image, on entend au sens large la position, l’orientation et le contour de ce document dans cette image. Ainsi, pour un contour donné, la forme comprend la position du centre de gravité de ce contour dans l’image du document, et l’orientation dans le plan de ce contour par rapport à un repère orthonormé de l’image. Ainsi, un même document peut être imagé en divers endroits par rapport au capteur, en différentes orientations (plus ou moins tourné par rapport au repère orthonormé du capteur, voire à 180°), et/ou déformé dans le cas d’un document souple.
Principe
L’idée des procédés proposés est de permettre l’utilisation et l’entrainement de méthodes de segmentation nécessitant de grandes quantités de données, tel que les réseaux de neurones, en se contentant d’un exemple par classe (ou type de document) lors de l’entrainement et en appliquant une chaîne d’augmentation d’images suffisamment représentative des images de documents réels et permettant ainsi d’avoir un volume d’images suffisant pour l’apprentissage de la méthode de segmentation.
Pour cela, le procédé de segmentation est divisé en un sous-procédé de classification suivi d’une estimation des paramètres d’une transformation géométrique qui, lorsqu’elle est appliquée à l’image de référence du type de document déterminé par la méthode de classification, fait correspondre la forme de l’image de référence à la forme du document dans l’image à segmenter. Elle permet ainsi de segmenter des documents à partir de documents de référence dont la forme et les contours sont connus à l’avance sans avoir besoin d’entraîner une méthode de segmentation sur des exemples où chaque pixel de l’image a été annoté manuellement. De plus, dans certains modes de réalisation, la séparation des étapes de détermination d’un masque de segmentation et de classification simplifie l’ajout d’un nouveau type de document au modèle car il n’est alors pas nécessaire de ré-entraîner l’ensemble du modèle, seulement les portions qui ont changées. Par « modèle », on entend ainsi les parties du ou des réseaux de neurones qui sont impliquées dans la prise en compte d’un nouveau type de document.
L’utilisation de méthodes basées sur les réseaux de neurones permet en outre de réduire les temps de calculs nécessaires par rapport à l’état de la technique, en effet contrairement aux méthodes de point d’intérêt qui ne nécessitent pas forcément d’entrainement comme les réseaux de neurones, mais ont un temps de calcul dépendant de la complexité des données d’entrées, les réseaux de neurones permettent en revanche d’avoir un temps de calcul constant quelle que soit l’image d’entrée lors de la classification. De plus, de manière surprenante, la décomposition, dans certains modes de réalisation, de la classification et de la détermination du masque de segmentation en deux tâches différentes permet aussi de réduire le temps de calcul par rapport à une méthode réalisant la classification et la détermination du masque de segmentation dans un même temps. En effet, le procédé de détermination du masque de segmentation étant spécifique à chaque type de document, et donc moins complexe, et la classification étant une opération plus simple que la segmentation, la charge de calcul induite par l’utilisation de ces deux procédés est inférieure à celle d’un procédé réalisant les deux opérations dans le même temps.
Phase de classification et de segmentation
En référence à la figure 2, le procédé de segmentation comprend une première étape, C1 , d’acquisition d’une image à traiter comportant le document à classer et segmenter. Cette image peut être acquise soit par des moyens de prise de vue 23, intégrés au client 2, soit être acquise via un réseau d’échange de données 10 tel que l’internet, cette étape peut en outre comprendre un sous-échantillonnage de l’image acquise afin de simplifier son traitement. Si le document à classer comprend des zones à remplir, une ou plusieurs de ces zones à remplir peuvent avoir été remplies par un utilisateur du document avant l’étape d’acquisition. Notamment lorsqu’elle est acquise par des moyens de prise de vue 23 dédiés, prévus à cet effet, l’image à traiter comporte le document à classer et segmenter, mais aussi une région de l’espace autour du document à classer. D’une part la forme du document à classer dans l’image est inconnue. D’autre part, la région de l’espace autour du document à classer peut être très variable selon les images. Elle peut comprendre un support du document à classer. Dans le cas où le document à imager est posé sur un ou plusieurs autres documents lors de l’acquisition, elle peut comprendre des parties de ce ou ces autres documents si l’empilement des documents n’est pas parfaitement superposé. Enfin, dans certains cas d’acquisition d’un document non supporté, la région de l’espace autour du document peut comprendre un fond distant dépendant de l’environnement du document lors de l’acquisition. L’image peut en particulier contenir des motifs répétitifs, comme c’est le cas par exemple pour les bulletins de jeu, qui comprennent plusieurs cases de forme identique.
L’image à traiter est ensuite transmise à un classifieur afin de déterminer le type du document lors d’une étape C2, cette classification peut alors être réalisée par un algorithme standard de classification, par exemple un réseau de neurones convolutif (CNN) tel que VGG16, DenseNet, ResNet etc. ou une méthode correspondance de points d’intérêt tel que SIFT ou SURF (« Speeded Up Robust Features »), tel que ce sera détaillé ci-dessous.
Selon un premier exemple, la classification est réalisée par un réseau de neurones convolutif. Dans ce cas, un réseau de neurones a été entraîné pour déterminer le type de document à partir d’une image d’entrée. Ainsi, on fournit en entrée du réseau de neurones l’image acquise, et le réseau de neurones fournit en sortie la classe du document figurant sur l’image. La classe du document peut par exemple être choisie dans la liste suivante : {passeport ; carte d’identité ; permis de conduire ; carte de membre ; billet de banque ; bulletin de jeu ; formulaire ; questionnaire à choix multiple}. La « carte de membre » peut par exemple être une carte délivrée à certaines personnes dans certains cas (par exemple, carte de mutuelle, carte de fidélité, ...). La classe du document peut également comprendre une sous-classe. Par exemple, dans le cas d’un « bulletin de jeu », la classe du document peut également peut également comprendre une sous-classe relative à un identifiant du jeu concerné.
Une fois le type de document identifié, une méthode de régression est utilisée afin d’estimer les paramètres d’une transformation géométrique (par exemple une transformation affine) qui, lorsqu’elle est appliquée à l’image de référence du type de document identifié, permet de retrouver la forme du document présent dans l’image à traiter. Cette régression peut être faite grâce à un réseau de neurones profond. On utilise par exemple un réseau de neurones spécifique respectif pour chaque type de document identifié au cours de l’étape de classification. Dans cet exemple, un réseau de neurones a été entraîné pour déterminer, à partir d’une image d’entrée, les paramètres d’une transformation géométrique à appliquer au document de référence associé au type de document pour le faire correspondre à l’image d’entrée. Ainsi, on fournit en entrée du réseau de neurones l’image acquise, ainsi que le type de document déterminé à l’étape précédente, et le réseau de neurones fournit en sortie des paramètres de transformation géométrique. Les paramètres de transformation géométrique peuvent par exemple comprendre les paramètres d’une translation du centre de gravité, d’une rotation planaire, et d’une déformation.
En variante, on peut utiliser, pour la méthode de régression, un réseau de neurones d’un type similaire à celui utilisé pour l’étape de classification (de préférence un CNN tel que VGG16, DenseNet, ResNet etc.) auquel est ajoutée une couche de connexion dense destinée à estimer les paramètres de la transformation géométrique.
Il est aussi possible de combiner le réseau de classification et le réseau de régression en réutilisant les premières couches du réseau de classification pour la régression. Dans ce cas, on utilise un réseau de neurones unique qui, à partir de l’image d’entrée, estime à la fois le type de document et les paramètres géométriques de la transformation. Selon un deuxième exemple, la classification est réalisée par une méthode par correspondance de points d’intérêt. Dans ce cas, on dispose, pour chaque type de document, d’un modèle de document comprenant une image de référence de ce type de document. Le modèle de document comporte également des informations structurées relatives à des informations interprétées (méta-données) relatives au document de référence. Ces informations interprétées comprennent notamment la nature et la position de points d’intérêt du document de référence. L’étape de classification du type de document comprend, pour chaque type de document, un traitement d’image appliqué à l’image acquise en vue de déterminer, sur l’image acquise, des points d’intérêt, puis une étape de mise en correspondance de ces points d’intérêts déterminés sur l’image acquise avec les points d’intérêts déterminés dans le modèle de document pour l’image de référence. Ainsi, l’image est classifiée comme correspondant à un type de document pour le type de document pour lequel la mise en correspondance des points d’intérêt de l’image acquise avec ceux du modèle de document pour ce type de document donne les meilleurs résultats. Selon certains exemples, la méthode par correspondance par points d'intérêt comprend un partitionnement des points d’intérêt en différentes régions chacune traitée indépendamment.
Dans ce deuxième exemple, on applique alors un réseau de neurones pour déterminer les paramètres de la transformation géométrique, comme décrit ci-dessus dans le cadre du premier exemple.
Dans un troisième exemple, on met en œuvre une étape de classification comme décrit ci-dessus dans le premier exemple, au moyen d’un réseau de neurones.
La régression peut alors être faite à partir des coins du document à segmenter si celui-ci a une forme polygonale ou bien à partir de points de marquage ajoutés à tous les documents d’un même type. Il suffit alors de trouver les paramètres d’une transformation géométrique qui permet de faire correspondre à un point ou coté du document dans l’image de référence du type de document, le point ou coté équivalent dans le document à segmenter.
Enfin, dans l’ensemble des exemples de réalisation ci-dessus, un masque de segmentation est créé en appliquant la transformation géométrique calculée à l’étape précédente au contour du document de l’image de référence afin d’obtenir le contour du document présent dans l’image à traiter. Ce masque de segmentation permet ainsi de déterminer la forme (position, orientation, contour) du document dans l’image acquise. Ceci permet notamment de s’affranchir des bords de documents disposés sous le document à analyser, visibles dans l’image acquise.
Cette forme est utilisée ensuite pour traiter l’image acquise en vue d’extraire des informations du document structuré. Le traitement en question peut utiliser des paramètres de la déformation géométrique déterminés comme décrit ci-dessus. Phase d’entrainement
En référence à la figure 3, un procédé d’augmentation des données d’entrainement est proposé. Ce procédé est mis en œuvre par les moyens de traitement 31 du serveur d’apprentissage, afin de générer un nombre d’images d’entrainement suffisant pour permettre l’entrainement d’un modèle de segmentation efficace. Pour cela, on pourra utiliser une unique image de référence de bonne qualité pour chaque type de document à identifier, acquise lors d’une étape E1 soit par des moyens de prise de vue 23, soit sous la forme d’un fichier source à l’origine de l’image de référence du type de document.
Des déformations géométriques aléatoires sont ensuite simulées à l’étape E2, en appliquant une transformation géométrique (par exemple une transformation affine), dont les paramètres ont été déterminés aléatoirement, à l’image de référence, générant ainsi des images ayant subi des translations, des symétries, des homothéties etc.
Ensuite, afin de simuler la présence d’un fond dans l’image, des textures représentant des images de fond sont créées en générant une image comportant des motifs aléatoires. Les images de documents ayant subi des déformations générées à l’étape précédente sont ensuite incrustées sur les images de fond lors d’une étape E3. En ce qui concerne les images de fond, on peut en particulier prévoir de générer des images comprenant des parties simulant des portions de documents disposés partiellement sous le document à analyser, et dépassant de sous celui-ci. Il est aussi possible d’ajouter un masque sur certaines parties de l’image du document si celui-ci comporte une ou plusieurs régions susceptibles d’être différentes d’un document du même type à l’autre et ainsi améliorer la capacité de généralisation du modèle entraîné. Pour cela une texture peut être générée de la même façon que les images de fond et appliquée à la région de l’image désirée, la texture de masquage étant de préférence différente de la texture de fond. Dans le cas, par exemple, d’un type de document comprenant des zones à remplir, notamment des cases à cocher, on peut ainsi générer une texture présentant le motif d’une zone remplie, qui peut être utilisé comme masque sur une ou plusieurs parties de l’image du document à l’emplacement des zones à remplir. Par exemple, on peut utiliser des textures faisant figurer une zone à remplir renseignée manuellement ou informatiquement par un caractère ou une suite de caractères. Dans le cas d’une zone à cocher, on peut utiliser des textures faisant figurer une case cochée.
Puis, afin de simuler des prises de vues faites dans des mauvaises conditions (par exemple mauvais éclairage, ou mauvaise mise au point), des dégradations photométriques sont appliquées, lors d’une étape E4, aux images générées à l’étape précédente. Ces dégradations peuvent être un effet de flou, une modification de la luminosité de l’image ou du contraste, ou encore des altérations des couleurs de l’image.
Enfin, un bruit numérique (par exemple bruit gaussien) est appliqué aux images générées dans une étape E5. Des exemples de documents produits par le procédé d’augmentation de données sont illustrés en figure 4.
Cette figure illustre notamment des cas où les documents présentent une forme sensiblement plane, et présentent une unique face porteuse de l’information structurée. Les documents présentent un contour, qui peut être polygonal, ou comprendre des zones courbes, comme dans l’exemple présenté d’une forme de cœur. Le document peut comprendre un cartouche périphérique d’une certaine largeur et de couleur uniforme. Comme visible sur la figure 4, l’image peut ne comporter qu’une partie du document. C’est le cas notamment si une transformée géométrique a été appliquée au document de référence qui déplace hors cadre une partie du document.
L’ensemble de ces étapes est répété pour chaque type de document, et autant de fois que l’on souhaite obtenir d’exemple par type de document. Cela permet de résoudre le problème de la constitution d’une base de données pour l’entrainement des modèles de segmentation.
Le fait que le document à analyser soit un document structuré implique de développer des réseaux de neurones qui sont spécifiques au traitement de documents structurés. En effet, les documents à analyser comprennent par essence des zones génériques pour le type de document en question, et des zones personnalisées (par exemple, une chaîne de caractères propre au titulaire d’un passeport, ou une pluralité de cases cochées et non cochées d’un bulletin de jeu), de sorte que le réseau de neurones se constituera de manière particulière au cours de l’apprentissage. Pour donner un exemple concret, sur un bulletin de jeu à cinquante cases à cocher, toutes identiques, dont six sont à cocher dans le cadre du jeu, les cases à cocher du document de référence forment des motifs réguliers facilement reconnaissables. Toutefois, un document à analyser va présenter certaines de ces cases cochées, justement de manière différente entre les bulletins, voire cochées de manière différente entre elles, ce qui rend difficile de s’appuyer sur la reconnaissance de ce motif régulier pour la classification.
Phase d’enrichissement avec un nouveau type de document
Le système qui vient d’être décrit peut être facilement enrichi pour traiter un nouveau type de document. Ainsi, si un nouveau type de document est à reconnaître, notamment en cas d’édition d’un nouveau jeu, une image de référence du bulletin de jeu du nouveau jeu est utilisée. Puis, un ensemble d’images est généré à partir de l’image de référence, comme décrit ci-dessus. Le réseau de neurones déterminant le type de document est alors ré-entrainé avec ces nouvelles images d’entrainement. Puis, un réseau de neurones d’estimation des paramètres de déformation est créé et entraîné avec ces images d’entrainement. Produit programme d’ordinateur
Selon des aspects complémentaires, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 11, 21 et 31 des serveurs 1 et/ou 3, et/ou du client 2) d’un procédé de segmentation d’un document comportant des informations structurées selon au moins une référence associée à un type de documents, le document étant présent dans une image d’entrée, ainsi que d’un procédé d’augmentation des données d’entrainement pour l’entrainement du procédé de segmentation décrit à partir d’une unique image de référence pour chaque type de documents à classifier et segmenter. De même, l’invention concerne aussi des moyens de stockage lisibles par un équipement informatique (une mémoire 12, 22 et 32 des serveurs 1 et/ou 3, et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur.

Claims

REVENDICATIONS
1 . Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement (11 ) des étapes de :
C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document, l’image de référence étant une image comportant uniquement le document ;
C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape C2) pour obtenir le document tel que représenté par l’image d’entrée ;
C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape C3) et de l’image de référence du type de document déterminé à l’étape C2).
2. Procédé de segmentation selon la revendication 1 , caractérisé en ce qu’il comprend en outre une étape C1 ) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape C2).
3. Procédé de segmentation selon l’une des revendications 1 et 2, caractérisé en ce que les documents sont des tickets de jeux comportant des cases à cocher.
4. Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est un réseau de neurones profond.
5. Procédé de segmentation selon la revendication 4, caractérisé en ce que le réseau de neurones profond est un réseau de neurones profond de type convolutif.
6. Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt.
7. Procédé de segmentation selon la revendication 2, caractérisé en ce que l’étape C1 ) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous- échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter.
8. Procédé de segmentation selon l’une des revendications 1 à 7 caractérisé en ce que les déformations géométriques sont des déformations représentées par des fonctions affines.
9. Procédé de segmentation selon l’une des revendications 1 à 8 caractérisé en ce que l’estimation des paramètres de la transformation géométrique de l’étape C3) est réalisée par un réseau de neurones profond.
10. Procédé de segmentation selon la revendication 9, caractérisé en ce que le réseau de neurones profond est sélectionné parmi une pluralité de réseaux de neurones correspondant chacun à un type de document, à partir du type de document déterminé à l’étape C2).
11. Procédé de segmentation selon l’une des revendications 1 à 10, comprenant : une étape préalable d’augmentation des données d’entrainement à partir d’une unique image de référence pour chaque type de documents à segmenter, l’étape d’augmentation des données d’entrainement comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) l’une et/ou l’autre des étapes de :
E2) Simulation de déformations géométriques aléatoires ;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document ; une étape d’entrainement d’un réseau de neurones mis en oeuvre à l’étape C2) et/ou à l’étape C3) sur la base des données d’entrainement augmentées.
12. Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon l’une des revendications 1 à 11 à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) des étapes de :
E2) Simulation de déformations géométriques aléatoires ; E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ; E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document.
13. Procédé d’augmentation des données d’entrainement selon la revendication 12, caractérisé en ce qu’il comprend en outre une étape E1 ) d’acquisition d’une image de référence du type de document réalisée avant l’étape E2).
14. Procédé d’augmentation des données d’entrainement selon l’une des revendications 12 et 13, caractérisé en ce que les déformations géométriques sont des déformations représentées par des fonctions affines.
15. Procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 14, caractérisé en ce qu’il comprend en outre une étape E3bis) de masquage, permettant de masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable.
16. Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 11 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 15, lorsque ledit programme est exécuté sur un ordinateur.
17. Moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 11 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 15, lorsque ledit programme est exécuté sur un ordinateur.
PCT/EP2020/087081 2019-12-18 2020-12-18 Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées WO2021123209A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CA3161385A CA3161385A1 (fr) 2019-12-18 2020-12-18 Procede de segmentation d'une image d'entree representant un document comportant des informations structurees
EP20838959.3A EP4078435A1 (fr) 2019-12-18 2020-12-18 Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1914750 2019-12-18
FR1914750A FR3105529B1 (fr) 2019-12-18 2019-12-18 Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées

Publications (1)

Publication Number Publication Date
WO2021123209A1 true WO2021123209A1 (fr) 2021-06-24

Family

ID=71661901

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/087081 WO2021123209A1 (fr) 2019-12-18 2020-12-18 Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées

Country Status (4)

Country Link
EP (1) EP4078435A1 (fr)
CA (1) CA3161385A1 (fr)
FR (1) FR3105529B1 (fr)
WO (1) WO2021123209A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495146A (zh) * 2022-02-17 2022-05-13 平安普惠企业管理有限公司 图像文本检测方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239118A1 (en) * 2009-03-17 2010-09-23 Behm William F Optical Signature to Enable Image Correction
FR2983607A1 (fr) 2011-12-02 2013-06-07 Morpho Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images
FR3027136A1 (fr) 2014-10-10 2016-04-15 Morpho Procede d'identification d'un signe sur un document deforme
EP3153991A1 (fr) * 2015-10-05 2017-04-12 Safran Identity & Security Procédé d'analyse d'un contenu d'au moins une image d'un document structuré déformé
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239118A1 (en) * 2009-03-17 2010-09-23 Behm William F Optical Signature to Enable Image Correction
FR2983607A1 (fr) 2011-12-02 2013-06-07 Morpho Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images
FR3027136A1 (fr) 2014-10-10 2016-04-15 Morpho Procede d'identification d'un signe sur un document deforme
EP3153991A1 (fr) * 2015-10-05 2017-04-12 Safran Identity & Security Procédé d'analyse d'un contenu d'au moins une image d'un document structuré déformé
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROCCO IGNACIO ET AL: "Convolutional Neural Network Architecture for Geometric Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 41, no. 11, 1 November 2019 (2019-11-01), pages 2553 - 2567, XP011748098, ISSN: 0162-8828, [retrieved on 20191001], DOI: 10.1109/TPAMI.2018.2865351 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495146A (zh) * 2022-02-17 2022-05-13 平安普惠企业管理有限公司 图像文本检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
EP4078435A1 (fr) 2022-10-26
FR3105529A1 (fr) 2021-06-25
CA3161385A1 (fr) 2021-06-24
FR3105529B1 (fr) 2022-10-28

Similar Documents

Publication Publication Date Title
EP3640843B1 (fr) Procédé d'extraction de caractéristiques d'une empreinte digitale représentée par une image d'entrée
FR2907239A1 (fr) Procede de recherche et de reconnaissance rapides d'une image numerique representative d'au moins un motif graphique dans une banque d'images numeriques
EP3832535A1 (fr) Procédé de détection d'au moins un élément d'intérêt visible dans une image d'entrée au moyen d'un réseau de neurones à convolution
Yu et al. Artificial intelligence for Dunhuang cultural heritage protection: the project and the dataset
EP3582141B1 (fr) Procédé d'apprentissage de paramètres d'un réseau de neurones à convolution
CA3024562A1 (fr) Procede d'authentification augmentee d'un sujet materiel
CA3043090C (fr) Procede de reconnaissance de caracteres
EP3570212A1 (fr) Procédé de reconnaissance de caractères
FR3088467A1 (fr) Procede de classification d'une image d'entree representative d'un trait biometrique au moyen d'un reseau de neurones a convolution
WO2021123209A1 (fr) Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées
EP2147394A1 (fr) Procede et dispositif d'authentification automatisee d'un ensemble de points
EP3929809A1 (fr) Procédé de détection d'au moins un trait biométrique visible sur une image d entrée au moyen d'un réseau de neurones à convolution
FR3072806B1 (fr) Procede de calcul d'un descripteur global d'une image
FR3095286A1 (fr) Procédé de traitement d’image d’un document d’identité.
SUDHAKAR et al. Image forgery detection based on fusion of lightweight deep learning models
EP2082336B1 (fr) Procede de recherche et de reconnaissance rapides d'une image numerique representative d'au moins un motif graphique dans une banque d'images numeriques
WO2023031305A1 (fr) Procédé de mise en relation d'une image candidate avec une image de référence
GNANESWARI et al. An Efficient Fruit Identification and Ripening Detection Using CNN Algorithm
EP4091098A1 (fr) Procédé de traitement d'une image candidate
EP3910537A1 (fr) Procédé de reconnaissance et d'identification de clés aux fins de leur duplication
WO2012107696A1 (fr) Procédés, dispositif et programmes d'ordinateur pour la reconnaissance de formes, en temps réel, à l'aide d'un appareil comprenant des ressources limitées
FR2946773A1 (fr) Procede et dispositif de reconnaissance d'informations au moyen d'une balise graphique.
FR2982057A1 (fr) Procede de reconnaissance d'une image dans une scene
FR3054057A1 (fr) Procede d'authentification augmentee d'un sujet materiel
Poojitha et al. IMAGE FORGERY DETECTION BASED ON FUSION OF LIGHTWEIGHT DEEP LEARNING MODELS

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20838959

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3161385

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020838959

Country of ref document: EP

Effective date: 20220718