BE1017576A6 - Digital color image enlarging method for optical character recognition of e.g. business card, involves enlarging selected image layer using enlarging operation with preset quality, where quality and selection are selected to process image - Google Patents

Digital color image enlarging method for optical character recognition of e.g. business card, involves enlarging selected image layer using enlarging operation with preset quality, where quality and selection are selected to process image Download PDF

Info

Publication number
BE1017576A6
BE1017576A6 BE2008/0454A BE200800454A BE1017576A6 BE 1017576 A6 BE1017576 A6 BE 1017576A6 BE 2008/0454 A BE2008/0454 A BE 2008/0454A BE 200800454 A BE200800454 A BE 200800454A BE 1017576 A6 BE1017576 A6 BE 1017576A6
Authority
BE
Belgium
Prior art keywords
image
enlarging
color image
layer
layers
Prior art date
Application number
BE2008/0454A
Other languages
French (fr)
Inventor
Michel Dauw
Patrick Verleysen
Xavier Gallez
Muelenaere Pierre De
Original Assignee
Iris Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iris Sa filed Critical Iris Sa
Application granted granted Critical
Publication of BE1017576A6 publication Critical patent/BE1017576A6/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)
  • Color Image Communication Systems (AREA)

Abstract

The method involves converting a color image into image layers. A predetermined selection of one of the image layers among the layers for enlarging operation is sampled. The selected image layer is uniquely enlarged using an enlarging operation with predetermined quality, by forming an enlarged image layer at the output. The predetermined selection and predetermined quality are selected for facilitating successive processing of the color image. Independent claims are also included for the following: (1) a method for optical character recognition (2) a computer program product comprising software codes for implementing a digital color image enlarging method.

Description

       

  -
Procédé d'agrandissement rapide d'images en couleur
Domaine technique La présente invention concerne un procédé d'agrandissement
(grossissement) d'une image numérique en couleur, en particulier une image d'un document pris par un dispositif de balayage ou un appareil photo numérique.
État antérieur de la technique
Une image numérique est constituée par un réseau de rangées et de colonnes de pixels. Pour une image en échelle de gris, chaque pixel a une valeur représentant la luminance moyenne de la surface correspondante. Pour une image en couleur, chaque pixel a une valeur de rouge, vert et bleu représentant la couleur moyenne de la surface correspondante.
Une couleur de pixel peut également être représentée par la représentation YUV (ou YCrCb), où Y est la luminance, U et V sont les canaux de chrominance rouges et bleus.

   Il est possible de convertir une couleur de la représentation RVB en une représentation YUV et viceversa.
Une image numérique est caractérisée par sa résolution, laquelle est le nombre de pixels dans chaque direction par pouce. Une image avec une résolution de 300 ppp (point par pouce) est une image qui a 300 rangées et 300 colonnes par pouce
Un document est un ensemble de pages qui contiennent du texte, mais qui peuvent également contenir des graphiques, des images, des logos, des dessins,... Un document peut être, par exemple, une lettre, une carte de visite, une facture, un formulaire, un article d'une revue ou d'un journal. Les documents sont convertis en images numériques par un dispositif appelé dispositif de balayage. Ils peuvent également être convertis en images numériques par un appareil photo numérique.

   Les documents sont balayés de sorte à pouvoir être gardés électroniquement et pour être par la suite traités par un ordinateur. L'application de traitement principale est une reconnaissance de texte ou une ROC (reconnaissance optique de caractères) qui permet le traitement ultérieur du texte reconnu.
Par exemple, une carte de visite est balayée en une image en couleur. Le texte est reconnu et ensuite interprété et décomposé dans différents champs comme le nom, la société, le titre, l'adresse, etc.
Cette information est gardée dans une base de données avec l'image en couleur. Les utilisateurs peuvent consulter la base de données et visualiser les images en couleur de la carte de visite.
La précision du ROC est naturellement très importante. Cette précision dépend de la qualité de l'impression et de la qualité du balayage.

   La qualité du balayage dépend, en particulier, de la résolution du dispositif de balayage. Les hautes résolutions rendront les images numériques plus proches des images originales avec plus de détails gardés. Malheureusement, le balayage à haute résolution prend plus de temps, étant donné que plus de pixels doivent être déterminés par le dispositif de balayage et être transférés à l'ordinateur qui traitera par la suite l'image numérique. Les dispositifs de balayage à haute résolution sont également plus coûteux.
L'on estime que la ROC donne une bonne précision pour un texte normal (10 pt et plus) à un minimum de 300 ppp. Cependant, beaucoup de dispositifs de balayage sont limités à 200 ppp et la plupart des dispositifs de balayage donnent leur débit optimal à 200 ppp.

   Pour des cartes de visite, une résolution minimale de 400 ppp est cependant préférée pour la ROC puisque le texte est très souvent écrit avec une faible force de corps d'un caractère (par exemple 8 pt). -
Il y a des techniques bien connues pour l'agrandissement d'une image numérique. Celles-ci utilisent des interpolations bilinéaires et bicubiques. Dans ces techniques, la grille de l'image de destination est mise en correspondance avec la grille de l'image source. Les valeurs de pixel de destination sont estimées en utilisant les valeurs de pixel source du voisinage. Elles sont estimées par interpolation. L'interpolation bilinéaire prend en considération les 4 voisins les plus proches. L'interpolation bicubique prend en considération les 16 voisins les plus proches.

   En général, l'interpolation comporte principalement 2 erreurs de reconstruction<'>- le flou et l'oscillation.
Les systèmes courants de lecture de carte de visite fonctionnent en deux étapes<'>la reconnaissance optique de caractères (ROC) et la l'identification des champs (analyse syntaxique du champ). Ils utilisent des engins de ROC pouvant identifier les caractères en provenance d'un ensemble réduit de langues, une langue à la fois. Ils utilisent un module d'analyse syntaxique de champ spécifiquement conçu en fonction d'un pays, permettant de ce fait des règles d'identification de champ spécifiques à ce pays uniquement.

   En conséquence, les solutions de lecture de carte de visite courantes peuvent uniquement identifier des cartes de visite d'un nombre très limité de pays, par exemple de 6 à
10 pays.
Divulgation de l'invention
Une première tâche de l'invention est celle de fournir un procédé plus rapide permettant l'agrandissement d'une image en couleur tout en maintenant une précision suffisante pour un traitement successif de l'image.
Cette première tâche est atteinte, conformément à un premier aspect de l'invention, avec le procédé comportant les étapes décrites dans la première revendication indépendante.

   -
Une deuxième tâche de l'invention est celle de fournir un procédé de reconnaissance optique de caractères plus précis.
Cette deuxième tâche est atteinte conformément à un deuxième aspect de l'invention avec le procédé comportant les étapes décrites dans la deuxième revendication indépendante.
Conformément à un premier aspect de l'invention, un procédé est présenté permettant l'agrandissement d'une image en couleur avant d'effectuer un traitement successif sur ladite image en couleur. Le procédé d'agrandissement comportant les étapes de conversion de l'image en couleur en de multiples couches d'image pouvant être distinguées l'une de l'autre et d'agrandissement d'au moins une desdites multiples couches d'image.

   Cet agrandissement comporte les étapes de prélèvement, parmi les multiples couches d'image, d'une sélection prédéterminée d'au moins une première couche d'image pour l'agrandissement à l'aide d'un premier procédé d'agrandissement, et par la suite d'agrandir uniquement ladite au moins une première couche d'image à l'aide dudit premier procédé d'agrandissement, formant de ce fait au moins une première couche d'image agrandie.

   Le premier procédé d'agrandissement a une qualité prédéterminée en raison du traitement successif. Également la/les couche(s) qui est/sont isolée(s) pour l'agrandissement au niveau de cette qualité prédéterminée est/sont choisie(s) de façon prédéterminée en raison du traitement successif.
En conséquence, conformément au premier aspect de l'invention, l'on présente un procédé avec lequel uniquement la/les couche(s) étant la /les plus appropriée(s) de l'image en couleur pour le traitement successif peut/peuvent être agrandie(s) au niveau d'une qualité prédéterminée suffisante pour permettre ou faciliter le traitement ultérieur (par exemple reconnaissance optique de caractères, compression d'image/document ou autre) et la/les couche(s) la/les moins appropriée(s) peut/peuvent être agrandie(s)

   au niveau d'une qualité inférieure ou même être négligée(s). En conséquence, une technique d'agrandissement d'image est atteinte pour des images ou des documents acquis par voie numérique (par exemple document balayé ou photos prises par un appareil photo numérique), cette technique étant rapide et précise.
En particulier, le premier aspect de l'invention permet un procédé rapide et précis qui peut mettre à l'échelle des images numériques en partant d'une résolution vers une résolution plus haute, par exemple de 200 ppp à 300 ppp ou de 300 ppp à 400 ppp, etc La stabilité du procédé permet, par exemple, d'effectuer le balayage à une résolution plus faible et d'agrandir immédiatement par la suite les images balayées à une résolution cible pour un processus successif comme la ROC.

   Ainsi, la nécessité de balayer directement à la résolution cible peut être évitée et le procédé de balayage peut être accéléré. La précision du procédé permet d'atteindre des résultats qui se rapprochent de ceux obtenus par le balayage direct à la résolution cible.
Dans des modes de réalisation préférés, le procédé comporte en outre les étapes de prélèvement, parmi lesdites couches d'image, d'une sélection de au moins une deuxième couche d'image, d'agrandissement de au moins une deuxième couche d'image à l'aide d'un deuxième procédé d'agrandissement et la recombinaison des première et deuxième couches d'image agrandies en une image en couleur de destination.

   Le deuxième procédé d'agrandissement peut avoir une qualité inférieure par rapport à celle dudit premier procédé d'agrandissement.
Dans des modes de réalisation préférés, la/les couches à agrandir à une qualité plus élevé et le procédé d'agrandissement à qualité plus élevée sont choisis pour faciliter un procédé de reconnaissance optique -
6
de caractères.

   De cette façon, le premier aspect de l'invention peut fournir une technique d'agrandissement d'image optimisée pour la reconnaissance de texte.
Dans des modes de réalisation préférés, la au moins une première couche d'image (laquelle/lesquelles est/sont agrandie(s) au niveau d'une qualité plus élevée) comporte une couche de luminance.
Dans des modes de réalisation préférés, la au moins une deuxième couche d'image (laquelle peut être agrandie au niveau d'une qualité inférieure) comporte deux couches de chrominance. Dans des modes de réalisation préférés, le premier procédé d'agrandissement est un procédé bicubique utilisant les fonctions "pistolet" dans lesquelles des paramètres peuvent être choisis pour trouver un compromis entre les effets de flou et d'oscillation.

   De cette façon, le premier aspect de l'invention peut fournir une technique d'agrandissement d'image dans laquelle un compromis est trouvée entre les erreurs de reconstruction dues au flou et aux oscillations. Un parmi lesdits paramètres peut être estimé pour au moins un type de dispositif d'acquisition d'image (dispositif de balayage ou autre) avec lequel des images en couleur sont acquises par voie numérique, en analysant la netteté des images acquises par le dispositif.

   Un desdits paramètres peut être estimé directement sur l'image en couleur destinée à être agrandie en analysant les bords de caractère des caractères dans l'image en couleur.
Dans des modes de réalisation préférés, le deuxième procédé d'agrandissement est un procédé bilinéaire.
Dans des modes de réalisation préférés, un facteur d'échelle est un paramètre d'entrée du procédé d'agrandissement.
Conformément à un deuxième aspect de l'invention, lequel peut ou peut ne pas être combiné avec les autres aspects de l'invention, l'on présente un procédé de reconnaissance optique de caractère qui comporte les étapes de conversion d'une image en couleur dans des couches de chrominance et de luminance et de réalisation de la reconnaissance de caractères en utilisant principalement la couche de luminance.

   Une analyse de l'état antérieur de la technique a montré que le traitement de ROC précis peut être atteint en utilisant principalement la luminance de l'image en couleur et à un moindre degré la chrominance. Ainsi, c'est suffisant que, en conformité avec le premier aspect décrit ci-dessus, seulement une de trois valeurs de pixel soit interpolée avec un procédé précis mais long, tandis que les deux autres peuvent être interpolées avec un procédé moins précis, mais plus rapide.
Dans des modes de réalisation préférés, le procédé de ROC comporte un procédé d'agrandissement conformément au premier aspect de l'invention.
Dans des modes de réalisation alternatifs,

   le procédé de ROC peut comporter de négliger les couches de chrominance ou de regarder premièrement la couche de luminance et de regarder seulement les couches de chrominance en cas d'incertitudes ou pour une correction d'erreur.
Le procédé de ROC peut par exemple être appliqué sur les documents balayés comme par exemple des cartes de visite, des pages de papier ou tout autre document.
Brève description des dessins
L'invention sera ultérieurement expliquée à l'aide de la description qui suit et des figures annexées.
Figure 1 montre un ordinogramme d'un procédé de reconnaissance optique de caractères, conformément à un mode de réalisation préféré de l'invention.

   -
8
Figure 2 montre un ordinogramme d'un procédé d'agrandissement, conformément à un mode de réalisation préféré de l'invention.
Modes de réalisation de l'invention
Les Figures 1 et 2 se rapportent à l'agrandissement d'image optimisée dans un but de ROC, conformément à des aspects de l'invention.

   A noter que le procédé d'agrandissement peut également être optimisé pour un traitement successif autre que la ROC et que le procédé de ROC, conformément à l'invention, n'inclut pas nécessairement le procédé d'agrandissement.
Un avantage des ordinogrammes montrés consiste en ce qu'une technique d'agrandissement d'image est fournie pour les documents balayés (ou pris par un appareil photo numérique ou sinon acquis par voie numérique) qui est rapide et précise.
Un avantage des ordinogrammes montrés consiste en ce qu'une technique d'agrandissement d'image est fournie dans laquelle un compromise est trouvé entre des erreurs de reconstruction dues au flou et aux oscillations.

   Un avantage des ordinogrammes montrés consiste en ce qu'une technique d'agrandissement d'image est fournie dans laquelle le facteur d'échelle est un paramètre d'entrée.
En particulier, les ordinogrammes des figures 1 et 2 fournissent ensemble un procédé rapide et précis qui peut mettre à l'échelle des images numériques en partant d'une résolution vers une résolution plus haute, par exemple de 200 ppp à 300 ppp ou de 300 ppp à 400 ppp, etc Le procédé est rapide, de sorte que le balayage direct au niveau de la résolution cible peut être évité.

   Le procédé est précis de sorte que le résultat est proche du résultat du balayage direct au niveau de la résolution cible. -
En général le procédé d'agrandissement utilisé dans l'ordinogramme de la figure 1 comporte au moins les étapes de conversion d'une image en couleur RVB source en au moins une image de luminance et d'agrandissement de l'image de luminance avec une technique d'agrandissement ayant une précision suffisante pour les buts de ROC. Des modes de réalisation préférés peuvent inclure des étapes de conversion d'image en couleur RVB source en images de chrominance, et d'agrandissement des images de chrominance avec une technique d'agrandissement de qualité inférieure et de recombinaison des images de luminance et de chrominance agrandies en une image
RVB de destination.

   De préférence un procédé bicubique est utilisé pour l'agrandissement de l'image de luminance et un procédé bilinéaire est utilisé pour l'agrandissement des images de chrominance. Cependant, d'autres procédés d'agrandissement peuvent également être utilisés, à condition que la qualité d'au moins la méthode d'agrandissement pour l'image de luminance soit suffisante pour les buts de la ROC. L'agrandissement des images de chrominance n'est pas essentielle.
Une analyse des techniques d'agrandissement de l'état antérieur de la technique a montré ce qui suit. L'interpolation bilinéaire est rapide, mais donne une image qui est trop floue pour la ROC. Lorsque l'image est trop floue, la précision de la ROC chute parce qu'elle éprouve des difficultés pour déterminer les bords de caractère.

   L'interpolation bicubique tend à préserver les valeurs du bord et résulte en moins de perte d'informations valables de pixel, mais elle est malheureusement trop longue étant donné qu'elle doit traiter 16 pixels source différents (avec 3 valeurs RVB par pixel) afin d'estimer un pixel de destination. En séparant l'interpolation bicubique bidimensionnelle en une interpolation cubique horizontale et une interpolation cubique -
10
verticale, l'interpolation bicubique peut être accélérée, mais elle reste toujours en général trop longue.
L'interpolation cubique utilise actuellement une fonction "pistolet" qui est un morceau de fonction polynomiale.

   Mitchell et Netravali ont présenté une famille intéressante de fonctions "pistolet" cubiques, les fonctions "pistolet" BC  pour » x » < 13 f(x) = (12 - 9*B - 6*C)* » x » **3 + (-18 + 12*B + 6*C)* I x I **2 + (6 - 2*B) pour 1 <= » x » < 2<'>f(x) = (-B - 6*C)* » x » **3 + (6*B + 30*O* » x » **2 + (- 12*C - 48*C)* I x I
+ (8*B + 24*C) sinon f(x) = 0
où B et C sont des paramètres qui contrôlent la forme des courbes cubiques et ainsi l'apparence de l'image de sortie. B et C peuvent être choisis afin de trouver le compromis entre les effets de flou et d'oscillations. Mitchell et Netravali ont montré que pour une bonne reconstruction, 2C + B doit être égal à 1.

   Voir Mitchell, Don P. et Netravali, Arun N., "Reconstruction Filters in Computer Graphics",
Computer Graphics, Vol. 22, No. 4, Août 1988, pp. 221-228, ce qui est cite ici dans son ensemble comme référence.
Conformément à l'invention, l'on découvre que le flou est parfois acceptable et même souhaitable pour la ROC. Il permet de se débarasser des bruits ou des imperfections dans les couleurs du texte ou dans les couleurs de l'arrière -plan du texte afin de supprimer les "faux" bords. En conséquence, les fonctions "pistolet" BC cubiques sont très intéressantes pour l'agrandissement d'image de document.

   Si l'effet de flou acceptable est connu, l'erreur d'oscillation peut être réduit au minimum. -
11
Si, par exemple, l'on estime que l'image source est déjà trop floue, B peut être établi à 0 et C à 0.5.
Si, par exemple, l'on estime que l'image source est suffisamment nette, B peut être établi à 1 et à C à 0. L'évaluation du paramètre B peut être réalisée de dispositif de balayage à dispositif de balayage, en analysant la netteté des images produites par le dispositif de balayage
Le paramètre B pourrait également être estimé directement sur l'image de document à agrandir en analysant les luminances de pixels, en particulier en analysant les bords de caractère.
Conformément à l'invention, l'on constate que le traitement de ROC précis peut être atteint en utilisant principalement la luminance de l'image en couleur et à un moindre degré la chrominance.

   Ainsi il peut être suffisant qu'uniquement une parmi les trois valeurs de pixel soit interpolée avec un procédé précis, mais long tandis que les deux autres peuvent être interpolées avec un procédé moins précis, mais plus rapide
L'algorithme de la figure 2, lequel est un procédé d'agrandissement préféré, comporte les étapes suivantes. L'image en couleur d'entrée sera la plupart du temps une image en couleur RVB, mais peut également être n'importe quel autre format connu par l'homme du métier.
1. L'image en couleur RGB est convertie en 3 couches : Y (luminance), U et V (2x chrominance). 2. La couche Y est agrandie en une couche Y' avec le procédé bicubique (fonctions "pistolet" BC) avec B et C en tant que paramètres et le facteur d'échelle en tant que paramètre supplémentaire. -
12
3.

   Les couches U et V sont agrandies dans des couches U' et V avec le procédé bilinéaire et le facteur d'échelle en tant que paramètre supplémentaire.
4. Les couches Y', U' et V sont converties/recombinées en une image en couleur de destination RGB.
Avec cette séquence, un procédé d'agrandissement rapide et précis est réalisé. Il est plus de 2.5 fois plus rapide que l'interpolation bicubique directe de l'image en couleur RVB.
L'on doit également faire remarquer que le résultat est très acceptable pour l'oeil humain. En effet, l'oeil humain est plus sensible à la luminance qu'à la chrominance.



  -
A method of rapidly enlarging color images
Technical Field The present invention relates to an enlarging method
(magnification) of a color digital image, in particular an image of a document taken by a scanner or a digital camera.
Prior art
A digital image is constituted by a network of rows and columns of pixels. For a gray scale image, each pixel has a value representing the average luminance of the corresponding surface. For a color image, each pixel has a value of red, green, and blue representing the average color of the corresponding surface.
A pixel color may also be represented by the YUV (or YCrCb) representation, where Y is the luminance, U and V are the red and blue chrominance channels.

   It is possible to convert a color from the RGB representation into a YUV representation and viceversa.
A digital image is characterized by its resolution, which is the number of pixels in each direction per inch. An image with a resolution of 300 dpi (dots per inch) is an image that has 300 rows and 300 columns per inch
A document is a set of pages that contain text, but may also contain graphics, images, logos, drawings, etc. A document may be, for example, a letter, a business card, an invoice , a form, an article from a magazine or newspaper. The documents are converted into digital images by a device called a scanner. They can also be converted to digital images by a digital camera.

   The documents are scanned so that they can be kept electronically and subsequently processed by a computer. The main processing application is a text recognition or OCR (Optical Character Recognition) that allows the subsequent processing of recognized text.
For example, a business card is scanned into a color image. The text is recognized and then interpreted and broken down into different fields such as name, company, title, address, etc.
This information is kept in a database with the color image. Users can view the database and view the color images of the business card.
The accuracy of the ROC is naturally very important. This accuracy depends on the quality of the print and the quality of the scan.

   The quality of the scanning depends, in particular, on the resolution of the scanning device. High resolutions will make digital images closer to original images with more detail kept. Unfortunately, high-resolution scanning takes longer, since more pixels must be determined by the scanner and transferred to the computer that will later process the digital image. High resolution scanners are also more expensive.
It is estimated that OCR gives good accuracy for normal text (10 pt and more) to a minimum of 300 dpi. However, many scanning devices are limited to 200 dpi and most scanners give their optimal bit rate at 200 dpi.

   For business cards, however, a minimum resolution of 400 dpi is preferred for OCR since the text is very often written with a low body strength of one character (eg 8 pt). -
There are well known techniques for enlarging a digital image. These use bilinear and bicubic interpolations. In these techniques, the grid of the destination image is mapped to the grid of the source image. The destination pixel values are estimated using the source pixel values of the neighborhood. They are estimated by interpolation. The bilinear interpolation takes into consideration the 4 closest neighbors. Bicubic interpolation takes into consideration the 16 closest neighbors.

   In general, the interpolation mainly comprises 2 reconstruction errors <-> - blur and oscillation.
Common business card reading systems operate in two stages <'> optical character recognition (OCR) and field identification (field parsing). They use OCR devices that can identify characters from a small set of languages, one language at a time. They use a country-specific field parsing module, thus allowing country-specific field identification rules only.

   As a result, common business card reading solutions can only identify business cards from a very limited number of countries, for example from 6 to
10 countries.
Disclosure of the invention
A first task of the invention is that of providing a faster method for enlarging a color image while maintaining sufficient precision for a successive processing of the image.
This first task is achieved, according to a first aspect of the invention, with the method comprising the steps described in the first independent claim.

   -
A second task of the invention is that of providing a more accurate optical character recognition method.
This second task is achieved according to a second aspect of the invention with the method comprising the steps described in the second independent claim.
In accordance with a first aspect of the invention, a method is provided for magnifying a color image prior to performing successive processing on said color image. The magnification method includes the steps of converting the color image into multiple image layers distinguishable from one another and magnifying at least one of said multiple image layers.

   This enlargement comprises the steps of sampling, from among the multiple image layers, a predetermined selection of at least a first image layer for enlargement by means of a first enlarging method, and by subsequently enlarging only said at least one first image layer with said first enlarging method, thereby forming at least a first enlarged image layer.

   The first enlargement method has a predetermined quality because of the successive processing. Also, the layer (s) which is / are isolated for magnification at this predetermined quality is / are selected in a predetermined manner due to the successive processing.
Accordingly, in accordance with the first aspect of the invention, there is provided a method with which only the layer (s) being the most appropriate (s) of the color image for subsequent processing can / can be enlarged to a predetermined quality sufficient to allow or facilitate further processing (eg optical character recognition, image / document compression or other) and the least appropriate layer (s) (s) can be enlarged

   at a lower quality level or even be neglected (s). As a result, an image enlargement technique is achieved for digitally acquired images or documents (e.g., scanned document or photos taken by a digital camera), this technique being fast and accurate.
In particular, the first aspect of the invention provides a fast and accurate method that can scale digital images from resolution to higher resolution, e.g. 200 dpi to 300 dpi or 300 dpi. at 400 dpi, etc. The stability of the process makes it possible, for example, to scan at a lower resolution and immediately enlarge the scanned images at a target resolution for a subsequent process such as OCR.

   Thus, the need to scan directly at the target resolution can be avoided and the scanning process can be accelerated. The precision of the method makes it possible to achieve results that are close to those obtained by direct scanning at the target resolution.
In preferred embodiments, the method further comprises the steps of taking, from among said image layers, a selection of at least a second image layer, enlarging at least a second image layer using a second enlarging method and recombining the enlarged first and second image layers into a destination color image.

   The second enlarging method may have a lower quality than that of said first enlarging method.
In preferred embodiments, the layer (s) to be enlarged to a higher quality and the higher quality enlargement process are selected to facilitate an optical recognition method.
6
of characters.

   In this way, the first aspect of the invention can provide an optimized image magnification technique for text recognition.
In preferred embodiments, the at least one first image layer (which is / are enlarged to a higher quality) has a luminance layer.
In preferred embodiments, the at least one second image layer (which can be enlarged to a lower quality) has two chrominance layers. In preferred embodiments, the first magnification method is a bicubic method using "gun" functions in which parameters can be chosen to find a compromise between blur and oscillation effects.

   In this way, the first aspect of the invention can provide an image enlargement technique in which a compromise is found between reconstruction errors due to blurring and oscillations. One of said parameters can be estimated for at least one type of image acquisition device (scanning device or other) with which color images are acquired digitally, by analyzing the sharpness of the images acquired by the device.

   One of said parameters can be estimated directly on the color image to be enlarged by analyzing the character edges of the characters in the color image.
In preferred embodiments, the second enlargement method is a bilinear process.
In preferred embodiments, a scale factor is an input parameter of the magnification process.
According to a second aspect of the invention, which may or may not be combined with the other aspects of the invention, there is disclosed a method of optical character recognition which comprises the steps of converting an image into color in chrominance and luminance layers and in making character recognition using mainly the luminance layer.

   An analysis of the prior art has shown that accurate OCR processing can be achieved by primarily using the luminance of the color image and to a lesser degree the chrominance. Thus, it is sufficient that, in accordance with the first aspect described above, only one of three pixel values is interpolated with a precise but long process, while the other two can be interpolated with a less accurate method, but faster.
In preferred embodiments, the OCR method includes an enlarging method according to the first aspect of the invention.
In alternative embodiments,

   the OCR method may involve neglecting the chrominance layers or first looking at the luminance layer and looking only at the chrominance layers in case of uncertainties or for error correction.
The OCR method can for example be applied to scanned documents such as business cards, paper pages or any other document.
Brief description of the drawings
The invention will be explained later with the aid of the description which follows and the appended figures.
Figure 1 shows a flow chart of an optical character recognition method according to a preferred embodiment of the invention.

   -
8
Figure 2 shows a flowchart of an enlarging method according to a preferred embodiment of the invention.
Embodiments of the invention
Figures 1 and 2 relate to optimized image magnification for OCR purposes, in accordance with aspects of the invention.

   It should be noted that the enlargement process can also be optimized for a subsequent treatment other than OCR and that the OCR method according to the invention does not necessarily include the enlargement method.
An advantage of the flowcharts shown is that an image magnification technique is provided for scanned documents (or taken by a digital camera or otherwise acquired digitally) that is fast and accurate.
An advantage of the flowcharts shown is that an image magnification technique is provided in which a compromise is found between reconstruction errors due to blurring and oscillations.

   An advantage of the flowcharts shown is that an image magnification technique is provided in which the scale factor is an input parameter.
In particular, the flowcharts of Figures 1 and 2 together provide a fast and accurate method that can scale digital images from resolution to higher resolution, for example from 200 dpi to 300 dpi or 300 dpi. ppp at 400 dpi, etc. The process is fast, so the direct scan at the target resolution can be avoided.

   The method is accurate so that the result is close to the result of the direct scan at the target resolution. -
In general, the enlargement method used in the flowchart of FIG. 1 comprises at least the steps of converting a source RGB color image into at least one luminance and magnification image of the luminance image with a magnification technique with sufficient accuracy for OCR purposes. Preferred embodiments may include steps of converting source RGB color images to chrominance images, and magnifying chrominance images with a low quality magnification and recombination technique of luminance and chrominance images. enlarged into an image
RGB of destination.

   Preferably a bicubic method is used for magnification of the luminance image and a bilinear process is used for magnification of the chrominance images. However, other enlargement methods may also be used, provided that the quality of at least the magnification method for the luminance image is sufficient for OCR purposes. Magnification of chrominance images is not essential.
An analysis of prior art enlargement techniques has shown the following. Bilinear interpolation is fast, but gives an image that is too fuzzy for OCR. When the image is too blurred, the accuracy of the OCR drops because it has difficulty in determining the edges of character.

   Bicubic interpolation tends to preserve edge values and results in less loss of valuable pixel information, but is unfortunately too long since it has to process 16 different source pixels (with 3 RGB values per pixel) in order to to estimate a destination pixel. Separating two-dimensional bicubic interpolation into a horizontal cubic interpolation and a cubic interpolation -
10
vertical, the bicubic interpolation can be accelerated, but it always remains in general too long.
Cubic interpolation currently uses a "gun" function which is a piece of polynomial function.

   Mitchell and Netravali presented an interesting family of cubic "pistol" functions, the "pistol" functions BC for "x" <13 f (x) = (12 - 9 * B - 6 * C) * »x» ** 3 + (-18 + 12 * B + 6 * C) * I x I ** 2 + (6 - 2 * B) for 1 <= "x" <2 <'> f (x) = (-B - 6 * C) * »x» ** 3 + (6 * B + 30 * O * »x» ** 2 + (- 12 * C - 48 * C) * I x I
+ (8 * B + 24 * C) otherwise f (x) = 0
where B and C are parameters that control the shape of cubic curves and thus the appearance of the output image. B and C can be chosen in order to find the compromise between the effects of blur and oscillations. Mitchell and Netravali have shown that for a good reconstruction, 2C + B must be equal to 1.

   See Mitchell, Don P. and Netravali, Arun N., "Reconstruction Filters in Computer Graphics,"
Computer Graphics, Vol. 22, No. 4, August 1988, pp. 221-228, which is quoted here as a whole as a reference.
According to the invention, it is found that the blur is sometimes acceptable and even desirable for OCR. It allows you to get rid of noises or imperfections in text colors or text background colors to remove "false" edges. As a result, cubic BC "gun" functions are very interesting for document image enlargement.

   If the acceptable blur effect is known, the oscillation error can be minimized. -
11
If, for example, it is estimated that the source image is already too fuzzy, B can be set to 0 and C to 0.5.
If, for example, it is estimated that the source image is sufficiently clear, B can be set to 1 and C to 0. The evaluation of parameter B can be performed from scanner to scanner, analyzing the sharpness of the images produced by the scanning device
Parameter B could also be estimated directly on the document image to be enlarged by analyzing the pixel luminances, in particular by analyzing the edges of characters.
In accordance with the invention, it is found that accurate OCR processing can be achieved by primarily using the luminance of the color image and to a lesser degree chrominance.

   Thus, it may be sufficient that only one of the three pixel values is interpolated with a precise but long process, while the other two can be interpolated with a less accurate but faster process.
The algorithm of Figure 2, which is a preferred magnification method, includes the following steps. The input color image will most often be an RGB color image, but may also be any other format known to those skilled in the art.
1. The RGB color image is converted into 3 layers: Y (luminance), U and V (2x chrominance). 2. The Y layer is enlarged into a Y 'layer with the bicubic method ("gun" functions BC) with B and C as parameters and the scale factor as an additional parameter. -
12
3.

   The layers U and V are enlarged in layers U 'and V with the bilinear method and the scale factor as an additional parameter.
4. The Y ', U' and V layers are converted / recombined into an RGB destination color image.
With this sequence, a fast and accurate enlargement process is realized. It is more than 2.5 times faster than the direct bicubic interpolation of the RGB color image.
It should also be noted that the result is very acceptable for the human eye. Indeed, the human eye is more sensitive to luminance than to chrominance.


    

Claims (15)

1. Procédé d'agrandissement d'une image en couleur avant d'effectuer le traitement successif sur ladite image en couleur, le procédé d'agrandissement comportant les étapes suivantes<'>a) La conversion de l'image en couleur dans de multiples couches d'image pouvant être distinguées l'une de l'autre ><'>b) l'agrandissement de au moins une parmi lesdites multiples couches d'image ; A method of enlarging a color image before performing the successive processing on said color image, the enlargement method comprising the following steps: a) Conversion of the color image into multiples image layers distinguishable from each other> <'> b) enlarging at least one of said multiple image layers; caractérisé en ce que l'étape b) comprend les étapes suivantes<'>c) le prélèvement, parmi lesdites couches d'image, d'une sélection prédéterminée d'au moins une première couche d'image pour l'agrandissement à l'aide d'un premier procédé d'agrandissement, ledit premier procédé d'agrandissement ayant une qualité prédéterminée ><'>d) l'agrandissement de uniquement ladite au moins une première couche d'image à l'aide dudit premier procédé d'agrandissement, en formant de la sorte au moins une première couche d'image agrandie ; et en ce que ladite sélection prédéterminée et ladite qualité prédéterminée sont choisies pour faciliter ledit traitement successif.  characterized in that step b) comprises the following steps: c) taking, from among said image layers, a predetermined selection of at least a first image layer for enlarging to using a first enlarging method, said first enlarging method having a predetermined quality> <'> d) enlarging only said at least one first image layer using said first enlarging method thereby forming at least one enlarged first image layer; and in that said predetermined selection and said predetermined quality are selected to facilitate said successive processing. 2. Procédé selon la revendication 1, comprenant en outre les étapes suivantes : e) le prélèvement, parmi lesdites couches d'image, d'une sélection de au moins une deuxième couche d'image ><'>f) l'agrandissement de au moins une deuxième couche d'image à l'aide d'un deuxième procédé d'agrandissement, en formant de la sorte au moins une deuxième couche d'image agrandie, ledit deuxième procédé d'agrandissement ayant une qualité - The method of claim 1, further comprising the steps of: e) taking, from said image layers, a selection of at least a second image layer> <'> f) magnifying at least one second image layer using a second enlarging method, thereby forming at least one second enlarged image layer, said second enlarging method having a quality - 3. Procédé selon la revendication 1 ou 2, où ledit traitement successif est un procédé de reconnaissance optique de caractères. The method of claim 1 or 2, wherein said successive processing is an optical character recognition method. 4. Procédé selon n'importe laquelle des revendications de 1 à 3, où ladite au moins une première couche d'image comprend une couche de luminance. The method of any one of claims 1 to 3, wherein said at least one first image layer comprises a luminance layer. 5. Procédé selon n'importe laquelle des revendications de 2 à 4, où ladite au moins une deuxième couche d'image comprend deux couches de chrominance. The method of any one of claims 2 to 4, wherein said at least one second image layer comprises two chrominance layers. 6. Procédé selon n'importe laquelle des revendications de 1 à 5, où ledit premier procédé d'agrandissement est un procédé bicubique utilisant des fonctions "pistolet" dans lesquelles les paramètres peuvent être choisis afin de trouver un compromis entre les effets de flou et d'oscillations. The method according to any one of claims 1 to 5, wherein said first enlarging method is a bicubic method using "gun" functions in which the parameters can be selected in order to find a compromise between the effects of blur and oscillation. 7. Procédé selon la revendication 6, comprenant en outre l'étape permettant d'estimer un parmi lesdits paramètres pour au moins un type de dispositif d'acquisition d'image avec lequel des images en couleur sont acquises par voie numérique, en analysant la netteté des images acquises par le dispositif. The method of claim 6, further comprising the step of estimating one of said parameters for at least one type of image acquisition device with which color images are acquired digitally, by analyzing the sharpness of the images acquired by the device. 8. Procédé selon la revendication 6, comprenant en outre l'étape permettant d'estimer un parmi lesdits paramètres directement sur - The method of claim 6, further comprising the step of estimating one of said parameters directly on - 15 15 l'image couleur destinée à être agrandie en analysant les bords de caractère des caractères dans l'image en couleur. the color image to be enlarged by analyzing the character edges of the characters in the color image. 9. Procédé selon n'importe laquelle des revendications de 2 à 8, où ledit deuxième procédé d'agrandissement est un procédé bilinéaire. The method of any one of claims 2 to 8, wherein said second enlarging process is a bilinear process. 10. Procédé selon n'importe laquelle des revendications de 1 à 9, où le facteur d'échelle est un paramètre d'entrée. The method of any one of claims 1 to 9, wherein the scale factor is an input parameter. 11. Procédé de reconnaissance optique de caractères, caractérisé en ce que le procédé comprend les étapes de conversion d'une image couleur dans des couches de luminance et de chrominance et de réalisation de la reconnaissance de caractères en utilisant principalement la couche de luminance. 11. A method of optical character recognition, characterized in that the method comprises the steps of converting a color image into luminance and chrominance layers and performing character recognition using mainly the luminance layer. 12. Procédé de reconnaissance optique de caractères selon la revendication 11, caractérisé en ce que l'image en couleur est obtenue en acquérant par voie numérique un document à une résolution inférieure et en agrandissant par la suite l'image acquise par voie numérique au niveau d'une résolution plus haute avec le procédé d'agrandissement de n'importe laquelle des revendications de 1 à 10. 12. An optical character recognition method according to claim 11, characterized in that the color image is obtained by digitally acquiring a document at a lower resolution and subsequently enlarging the digitally acquired image at the image level. of a higher resolution with the enlarging method of any one of claims 1 to 10. 13. Procédé de reconnaissance optique de caractères selon la revendication 12, caractérisé en ce que le document est une carte de visite. 13. Optical character recognition method according to claim 12, characterized in that the document is a business card. 13 13 Revendications claims 14. Produit de programme informatique directement chargeable dans une mémoire d'un ordinateur, comprenant des parties de code logiciel pour exécuter les étapes de l'une quelconque des revendications de 1 à 13 lorsque ledit produit est exécuté sur un ordinateur. - A computer program product directly loadable into a memory of a computer, comprising software code portions for performing the steps of any one of claims 1 to 13 when said product is run on a computer. - 16 16 14 14 inférieure par rapport audit premier procédé d'agrandissement ><'>g) la recombinaison desdites première et deuxième couches d'image agrandies en une image en couleur de destination. lower than said first enlarging method; g g) recombining said enlarged first and second image layers into a destination color image. 15. Produit de programme informatique selon la revendication , mémorisé sur un support utilisable par ordinateur. 15. Computer program product according to the claim, stored on a computer usable medium.
BE2008/0454A 2007-08-15 2008-08-18 Digital color image enlarging method for optical character recognition of e.g. business card, involves enlarging selected image layer using enlarging operation with preset quality, where quality and selection are selected to process image BE1017576A6 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US95606507P 2007-08-15 2007-08-15
EP08060710 2008-08-14

Publications (1)

Publication Number Publication Date
BE1017576A6 true BE1017576A6 (en) 2008-12-02

Family

ID=40084523

Family Applications (1)

Application Number Title Priority Date Filing Date
BE2008/0454A BE1017576A6 (en) 2007-08-15 2008-08-18 Digital color image enlarging method for optical character recognition of e.g. business card, involves enlarging selected image layer using enlarging operation with preset quality, where quality and selection are selected to process image

Country Status (1)

Country Link
BE (1) BE1017576A6 (en)

Similar Documents

Publication Publication Date Title
US8405780B1 (en) Generating a clean reference image
US6757426B2 (en) System and method for image processing by automatic color dropout
CA2835047C (en) Method of controlling an action, such as a sharpness modification, using a colour digital image
EP1410331B1 (en) Method and system for modifying a digital image taking into account its noise
JP2007020176A (en) Method and system for contrast enhancement of image, and method for determining whether or not image is to be subjected to local contrast enhancement
CA3043090C (en) Character recognition process
FR3081244A1 (en) CHARACTER RECOGNITION METHOD
EP1673728B1 (en) Method and system for differentially and regularly modifying a digital image by pixel
Lin et al. Exposure invariance in spectral reconstruction from rgb images
US8411940B2 (en) Method for fast up-scaling of color images and method for interpretation of digitally acquired documents
JP2010286959A (en) Method, device and program for enhancing face image resolution
FR2996034A1 (en) Method for generating high dynamic range image representing scene in e.g. digital still camera, involves generating composite images by superposition of obtained images, and generating high dynamic range image using composite images
BE1017576A6 (en) Digital color image enlarging method for optical character recognition of e.g. business card, involves enlarging selected image layer using enlarging operation with preset quality, where quality and selection are selected to process image
FR3095286A1 (en) Image processing method of an identity document.
EP1525553A2 (en) Method and system for automatically locating text areas in an image
BE1021013B1 (en) METHOD AND SYSTEM FOR IMPROVING THE QUALITY OF COLOR IMAGES
FR2739953A1 (en) METHOD AND APPARATUS FOR TRANSFORMING IMAGE DATA
EP1544793A1 (en) Method and system of improving the quality of overexposed digital images
FR3076378A1 (en) METHOD OF FORMING NEURON NETWORK FOR RECOGNITION OF CHARACTER SEQUENCE AND ASSOCIATED RECOGNITION METHOD
EP1390905A1 (en) Method for detecting text zones in a video image
D’Aronco et al. A Deep Learning Approach for Digital Color Reconstruction of Lenticular Films
Intaniyom et al. Enhancement of Anime Imaging Enlargement using Modified Super-Resolution CNN
FR3054707A3 (en) METHOD FOR ACQUIRING COLOR IMAGES UNDER INCOMING AMBIENT LIGHTING
EP1542450B1 (en) Method and arrangement for halftoning with error diffusion of vectors from a table
WO2021116615A1 (en) Method for compressing a sequence of images displaying synthetic graphical elements of non-photographic origin

Legal Events

Date Code Title Description
RE20 Patent expired

Owner name: S.A.* I.R.I.S.

Effective date: 20140818