NL1015943C2

NL1015943C2 - Interpretatie van gekleurde documenten.

Info

Publication number: NL1015943C2
Application number: NL1015943A
Authority: NL
Inventors: Peter Franciscus Marie Nacken
Original assignee: Ocu Technologies B V
Priority date: 2000-08-16
Filing date: 2000-08-16
Publication date: 2002-02-19
Also published as: EP1182605B1; US20020039439A1; JP4719386B2; EP1182605A1; JP2002099915A; US6999616B2

Description

Océ-Technologies B.V., te Venlo

Interpretatie van gekleurde documenten 5 De uitvinding betreft een werkwijze voor het extraheren van informatie- elementen in een kleurbevattend digitaal beeld ten behoeve van een automatische interpretatie-bewerking.

Een dergelijke automatische interpretatie-bewerking is bijvoorbeeld automatische lay-out-analyse, automatische optische karakterherkenning of automatische herkenning 10 van waardepapieren, en met “informatie-elementen” wordt bijvoorbeeld bedoeld: karakters.

Het extraheren van informatie-elementen uit een in zwart/wit uitgevoerd documentbeeld en een daaropvolgende automatische lay-out-analyse is bekend, bijvoorbeeld uit EP 0 629 078 B, maar ook andere methoden zijn bekend uit de 15 literatuur. Verschillende andere methoden worden genoemd in dè inleiding van het genoemde Europese octrooi.

De bekende methoden werken meestal door in een digitaal beeld dat bijvoorbeeld is gevormd door een document te scannen met een electro-optische scanner, groepen van aaneengrenzende pixels van gelijke kleur (“verbonden componenten” ofwel 20 “connected components”) te onderscheiden in informatiedragende (voorgrond-) groepen en achtergrond-groepen, en de informatiedragende groepen te classificeren in types, zoals (bijvoorbeeld) karakters, lijnen, foto’s, etc. Vervolgens kunnen de informatiedragende pixelgroepen, of een selectie daarvan, overeenkomend met een beperkte verzameling types, worden ge-extraheerd voor een verdere interpretatie-25 bewerking.

De genoemde methoden gaan uit van een binair beeld in zwart en wit, dat wil zeggen een beeld van binaire pixels. Zulke pixels hebben slechts twee mogelijke waarden: aan of uit, 0 of 1, wit of zwart. De ene mogelijke waarde, bijvoorbeeld zwart, wordt als informatiedragend beschouwd, terwijl de andere waarde, dus wit, als niet-30 informatiedragend ofwel achtergrond geldt. Deze methoden kunnen niet zonder meer op kleurbevattende digitale beelden worden toegepast, omdat zulke beelden pixels bevatten met verschillende kleuren, die niet zonder meer kunnen worden ingedeeld in de twee klassen “informatiedragend” en “achtergrond”. Zowel de informatie als de achtergrond kunnen namelijk gekleurd zijn, terwijl niet a priori bekend is, welke kleur 35 wejke functie heeft.

i ö -1- o ? 2

Bovendien bevat een kleurenbeeld vaak nog fouten, kleine gebiedjes met een afwijkende kleur, ten gevolge van het beperkte oplossende vermogen van de scanner, ruls en/of registerfouten bij het afdrukken van het gescande kleurendocument. Dit uit zich bijvoorbeeld in pixels met een overgangskleur langs de randen van karakters. Als 5 voorbeeld wordt verwezen naar Fig. 1, waarin een detail van een gescand documentbeeld wordt getoond, waarin de als gevolg van scannerfouten verkeerd gekleurde pixels gearceerd worden weergegeven.

Zulke verkeerd gekleurde gebiedjes leveren problemen op, omdat zij de interpretatie-bewerking verstoren.

10 Gekleurde beelden bevatten vaak zeer veel verschillende kleuren. Ook dit levert problemen op bij extractie-bewerkingen, omdat alle in het beeld voorkomende kleuren afzonderlijk moeten worden ingedeeld als informatie-dragend of achtergrond. Het is daarom aantrekkelijk om de verzameling in een document voorkomende kleuren eerst te quantiseren in een beperkt aantal kleurgroepen.

15 Technieken om kleuren te quantiseren zijn beschreven in de literatuur, bijvoorbeeld in Sobottka, K. et al.: “Identification of text on colored book and journal covers”, Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, en in aanvraagsters Nederlandse octrooiaanvrage nr. 1013669. In beide documenten wordt de kleurquantisatie uitgevoerd als voorbereiding voor een 20 interpretatie-bewerking. Volgens deze methoden worden de kleuren die in een digitaal beeld voorkomen gegroepeerd in een beperkt aantal clusters en worden alle kleuren die in een zekere cluster liggen, gekarakteriseerd door een kleurcode voor die cluster. Locaal is er dan meestal nog maar een zeer klein aantal verschillende kleurcodes aanwezig, zodat een onderscheid tussen informatie-elementen en achtergrond veel 25 eenvoudiger wordt.

Overigens wordt hierdoor het probleem van verkeerd gekleurde gebiedjes langs de randen van informatie-elementen niet opgelost, want deze kunnen bij quantisatie afwijkende kleurcodes krijgen, met name wanneer in het beeld op andere plaatsen beeldelementen met (vrijwel) dezelfde kleur als de bedoelde “verkeerde" kleur 30 voorkomen. Ook kan er juist door de quantisatie een situatie ontstaan, waarin informatie-elementen in onderdelen met verschillende kleurcodes uiteenvallen, waardoor zo een informatie-element als geheel onherkenbaar wordt voor een verder bewerkingsproces.

In de genoemde Nederlandse octrooiaanvrage wordt een nabewerking van het aan 35 kleurquantisatie onderworpen beeld voorgesteld, die bestaat uit het vaststellen van 3 karaktercontouren met behulp van chain-coding. Hierbij wordt een contour geconstrueerd als scheiding tussen de pixels met een kleurcode die afwijkt van die van de omgevende achtergrond en de pixels met de kleurcode van de achtergrond. De verdere verwerking geschiedt dan op de contouren, zonder nog naar de oorspronkelijke 5 kleurcodes te kijken.

Nadeel van deze nabewerkingsmethode is, dat alle van de achtergrondkleur afwijkende pixels worden beschouwd als te behoren bij het informatie-element of karakter, ook als zij eigenlijk tot de achtergrond behoren. Opnieuw verwijzend naar Fig.

1, zal deze bekende methode de twee cijfers als een geheel extraheren en als gevolg 10 daarvan kunnen fouten optreden bij een OCR-bewerking.

Het zij hierbij opgemerkt, dat kleurquantisatie alleen nodig is, wanneer het te bewerken beeld veel kleuren bevat. Is dit niet het geval, dan kan quantisatie overbodig zijn.

De uitvinding heeft tot doel om een verbeterde bewerking van kleurenbeelden te 15 verschaffen, waardoor een automatische interpretatie-bewerking nauwkeuriger resultaten kan bereiken.

De uitvinding omvat daartoe de volgende stappen: - het in het digitale beeld onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur, 20 - het indelen van verbonden componenten in achtergrond - verbonden componenten en andere verbonden componenten en het groeperen van aaneengrenzende genoemde andere verbonden componenten, - het toewijzen van verbonden componenten van een groep aaneengrenzende genoemde andere verbonden componenten aan een voorgrond of aan de achtergrond 25 op grond van een voorafbepaald toewijzingscriterium, - het samenvoegen van aaneengrenzende, aan voorgrond toegewezen verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.

In een uitvoeringsvorm van de uitvinding bevat de werkwijze een 30 voorbereidingsstap, omvattende - het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren in een beperkt aantal gequantiseerde kleuren.

Deze voorbereidingsstap is nodig wanneer het te bewerken beeld veel verschillende kleuren bevat. Dit zal vaak het geval zijn. In dat geval dient de term “kleur” 35 in deze beschrijving te worden geïnterpreteerd als “gequantiseerde kleur”.

4

In een verdere uitvoeringsvorm is het genoemde toewijzingscriterium gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van de groep genoemde andere verbonden componenten waartoe de toe te wijzen verbonden component behoort en met de kleur van een achtergrond - verbonden 5 component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft.

Meer bepaald wordt de kleur van een toe te wijzen verbonden component vergeleken met het gemiddelde van de kleuren van de groep verbonden componenten waartoe de toe te wijzen verbonden component behoort en met de kleur van de achtergrond - verbonden component.

10 In een nog verdere uitvoeringsvorm worden de genoemde andere verbonden componenten eerst ingedeeld in typen en worden alleen verbonden componenten van voorafbepaalde typen geanalyseerd met het genoemde toewijzingscriterium.

De keuze van de geanalyseerde component-typen wordt bepaald door de specifieke automatische interpretatie-bewerking en heeft tot doel om het aantal te 15 analyseren verbonden componenten te beperken, hetgeen ten goede komt aan de bewerkingstijd en de robuustheid van de bewerking. Wanneer bijvoorbeeld de interpretatie-bewerking karakter-herkenning is, zal het alleen interessant zijn om die verbonden componenten te analyseren die mogelijk deel kunnen uitmaken van een karakter.

20 De uitvinding omvat voorts een inrichting waarin de uitvinding wordt toegepast.

De uitvinding, waaronder begrepen het kwantiseren van kleuren van een afbeelding alsook de combinatie van het kwantiseren van kleuren van een afbeelding en het interpreteren van dat beeld, kan worden uitgevoerd in een daartoe geschikt geprogrammeerde computer en betreft daarom eveneens een computerprogramma en 25 een opslagmedium waarop het computerprogramma is opgeslagen.

De uitvinding zal nu worden toegelicht aan de hand van de bijgevoegde figuren. Hierin is:

Fig. 1 een weergave van een detail van een gescand kleurenbeeld;

Fig. 2 een schematische weergave van de gebruiksomgeving voor de huidige uitvinding; 30 Fig. 3 een schematisch weergave van de samenstellende onderdelen van een inrichting volgens de uitvinding;

Fig. 4 een beslissingsschema voor indeling van verbonden componenten in typen;

Fig. 5 een stroomschema van de werking van een toewijzingmodule volgens de uitvinding; 35 Fig. 6 A, B, C en Fig. 7 A, B, C weergaven van digitale beelden in verschillende stadia m . *? 9^3 5 van bewerking.

Fig. 2 toont een omgeving waarin de huidige uitvinding met vrucht kan worden toegepast.

Getoond wordt een samenstel van een bron-eenheid 20 voor een digitaal 5 kleurenbeeld, bijvoorbeeld een elektro-optische scanner 10 voor het scannen van een document of een opslageenheid 11 met scandata, een voorbewerkingseenheid 21 volgens de huidige uitvinding, die informatie-elementen extraheert, en een of meer interpretatie-eenheden, in dit voorbeeld een lay-out-analyse-eenheid 22 die een onderlinge samenhang van informatie-eenheden vaststelt en een karakterherkennings 10 (OCR)-eenheid 23 die het zo gevonden tekstbeeld omzet in tekstcode, die verder digitaal te verwerken is. De eenheden 21,22 en 23 kunnen zijn ge-implementeerd in een geschikt geprogrammeerde computer 12. De resultaten kunnen bijvoorbeeld worden opgeslagen in een geheugen-eenheid 13.

Karakters zijn niet altijd eenvoudig te herkennen in een gescand kleurenbeeld.

15 Een kleurenscan bevat namelijk vaak veel verschillende kleuren, ook als het gescande beeld slechts enkele (hoofd)kleuren heeft. Drukfouten in het gescande document, ten gevolge van registerfouten in het drukproces, en scanfouten ten gevolge van ruis en het beperkte oplossende vermogen van de scanner kunnen afwijkend gekleurde pixels of gebiedjes van pixels veroorzaken, die niet zonder meer kunnen worden herkend en 20 verwijderd. Deze afwijkend gekleurde gebiedjes veroorzaken interpretatiefouten, en het is de functie van de voorbewerkingseenheid 21 om informatie-elementen te extraheren, die zijn ontdaan van zulke verstoringen.

De verschillende onderdelen van de voorbewerkingseenheid 21 zijn weergegeven in Fig. 3 en omvatten de volgende modules: 25 - een kleurquantisatiemodule 31 voor terugbrengen van het aantal kleuren in het beeld tot een beperkt aantal - een classificatiemodule 32 voor het inventariseren van de in het beeld voorkomende verbonden componenten en het indelen daarvan in typen - een selectiemodule 33 voor het selecteren van de verbonden componenten van 30 bepaalde typen - een verdelingsmodule 34 voor het verdelen van de geselecteerde verbonden componenten in achtergrond - verbonden componenten en niet-achtergrond -verbonden componenten en het groeperen van de laatstgenoemde in eilanden van aan elkaar grenzende verbonden componenten 35 - een toekenningssmodule 35 voor het toekennen van de verbonden componenten van 1 6 een eiland aan de voorgrond en de achtergrond, en - een samenstellingsmodule 36 voor het samenstellen van de verbonden componenten van een eiland, die behoren tot de voorgrond, tot een informatie-element.

De werking van deze modules zal nu worden beschreven.

5 De kleurquantisatiemodule 31 heeft tot doel om een indeling in voorgrond- en achtergrond-elementen mogelijk te maken. Kleur alleen is hiervoor immers een onvoldoende criterium, en dus moet elke verbonden component als potentieel informatiedragend worden beschouwd. Omdat in een digitaal kleurenbeeld 24 bits gebruikt worden om een kleur te beschrijven, zal een gescand kleuren beeld al snel een 10 groot aantal verschillende kleuren bevatten. Door kleurquantisatie wordt het aantal kleuren sterk verkleind.

Er zijn verschillende methoden om kleuren te quantiseren. In aanvraagsters Nederlandse octrooiaanvrage nr. 1013669 wordt een methode beschreven, waarin de kleurenruimte wordt verdeeld in een klein aantal compartimenten die elk een 15 concentratie van in het beeld aanwezige kleuren bevatten. Alle kleuren in een compartiment krijgen een gelijke kleurcode. In Sobottka, K. et al.: “Identification of text on colored book and journal covers”, Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, wordt voorgesteld om een driedimensionaal histogram van kleuren op te stellen. Vervolgens wordt voor iedere 20 histogram-cel een pointer naar de hoogste buurcel vastgesteld. Aldus wordt rond elk locaal maximum in het histogram een gebied gedefinieerd, welk gebied in zijn geheel een kleurcode krijgt toegewezen.

Hier zijn slechts twee kleurquantisatiemethoden beschreven, maar er zijn er meer bekend. De keuze van een methode is arbitrair en behoort niet tot de huidige uitvinding. 25 De kleurquantisatiemodule 31 levert een digitaal beeld met een beperkt aantal kleuren af aan de classificatiemodule 32, die alle pixels van het digitale beeld classeert in verbonden componenten en de verbonden componenten indeelt naar type. Een verbonden component is een groep aaneengrenzende pixels met dezelfde kleurcode. Om elke verbonden component wordt een grensbox gelegd, dat is de kleinste rechthoek 30 die om de verbonden component heen past.

Vervolgens worden voor elke verbonden component de volgende attributen gemeten: - de coördinaten van de linkerbovenhoek (xO, yO) en rechterbenedenhoek (x1, y1) van de grensbox 35 - de grootte (het aantal pixels van de verbonden component) . · w 7 - de kleurcode van de verbonden component - de gemiddelde waarde en de standaarddeviatie SDEV van de (werkelijke) kleuren in de verbonden component.

Uit deze attributen worden de volgende eigenschappen van de verbonden component 5 berekend: - de breedte - de hoogte

- het oppervlak A

- de grootste maat B (= max (breedte, hoogte)) 10 - de kleinste maat S (= min (breedte, hoogte)) - aspectverhouding AR (= (grootste maat)/(kleinste maat)) - de bedekkingsgraad C, d.i. het bedekte gedeelte van de grensbox (= grootte/(breedte x hoogte))

Met behulp van de aldus berekende eigenschappen wordt een verbonden 15 component ingedeeld in een van de volgende typen: NOISE: klein element zonder betekenis HLINE: (gedeelte van) een horizontale lijn VLINE: (gedeelte van) een verticale lijn SMALL: klein karakter of deel van een karakter 20 CHAR: karakter PHOTO: (deel van) een foto GRAPH: grafisch element BACKGR: groot, homogeen achtergrondveld UNKNOWN: niet definieerbaar 25 De classering wordt uitgevoerd met behulp van een beslissingsboom die is weergegeven in Fig. 4. Deze figuur spreekt grotendeels voor zichzelf. In een aantal stappen wordt gebruik gemaakt van een voorafgekozen drempelwaarde T. De waarde hiervan kan experimenteel bepaald worden. De waarde 3,5 mm, zijnde een in documenten veelgebruikte karaktergrootte, blijkt goed te voldoen. Overigens zijn ook de 30 andere aangegeven drempelwaarden slechts als voorbeeld bedoeld.

Voor de verdere bewerking worden alleen verbonden componenten van voorafbepaalde types geselecteerd. De keuze van deze types is afhankelijk van de specifieke interpretatie-bewerking die volgt. In dit voorbeeld wordt als interpretatie-bewerking karakterherkenning toegepast. Hiervoor zijn alleen die verbonden 35 componenten benodigd, die zelf een karakter of een deel daarvan kunnen zijn, namelijk: 1015941 8 CHAR, NOISE, SMALL en UNKNOWN. Bovendien worden de verbonden componenten van type BACKGR geselecteerd. De betreffende selectie wordt uitgevoerd door de selectiemodule 33, die de geselecteerde verbonden componenten doorgeeft aan de indelingsmodule 34.

5 De indelingsmodule 34 groepeert verbonden componenten die niet van het type achtergrond zijn in zogenaamde “eilanden”, waarbij een “eiland” een geheel is van aan elkaar grenzende verbonden componenten. De “eilanden" worden doorgegeven aan de toewijzingsmodule 35, die vaststelt, welke verbonden componenten tot het informatie-element behoren. Een “eiland” bevat immers in de regel een aantal verbonden 10 componenten waarvan een deel behoort tot een informatie-element en een ander deel tot de achtergrond.

De toewijzingsmodule 35 voert een procedure uit die is weergegeven in Fig. 5, en is gebaseerd op een voorafbepaald toewijzingscriterium met betrekking op de kleuren van “eiland” en omgevende achtergrond. Volgens het toewijzingscriterium wordt een 15 verbonden component toegewezen aan een voorgrond (informatiedragend) of de achtergrond (niet informatiedragend).

In een eerste stap S1 wordt de RGB-waarde van de achtergrond-component die het “eiland” omgeeft vastgesteld. Indien het “eiland” juist op de grens van twee of zelfs meer achtergrond-componenten is gelegen, wordt in deze stap de gemiddelde RGB-20 waarde van de omgevende achtergrons-componenten berekend, bijvoorbeeld door eenvoudige middeling van de R-, G-, respectievelijk B-waarden. Ook kan hier een gewogen gemiddelde, bijvoorbeeld naar oppervlakte, worden gebruikt.

Vervolgens wordt in stap S2 de gemiddelde RGB-waarde van de verbonden componenten in het “eiland” berekend, bijvoorbeeld door eenvoudige middeling van de 25 R-, G-, respectievelijk B-waarden. Ook kan hier een gewogen gemiddelde, bijvoorbeeld naar oppervlakte, worden gebruikt.

Dan wordt voor iedere verbonden component (stappen S3, S8, S9) de eigenlijke toewijzingsprocedure (S4 - S7) uitgevoerd. In stap S4 worden de afstanden in de kleurenruimte tussen de RGB-waarde van de onderzochte verbonden component en de 30 (eventueel gemiddelde) RGB-waarde van de achtergrond, respectievelijk de gemiddelde RGB-waarde van het “eiland” berekend. Deze afstanden worden vergeleken (S5) en de onderzochte verbonden component wordt toegewezen aan de voorgrond, als de afstand tot de “eiland”-waarde kleiner is dan die tot de achtergrond-waarde (S6), en aan de achtergrond in het andere geval (S7).

35 In dit voorbeeld wordt met de RGB-waarde van een element de RGB-waarde van ^ i c, * ·: ' Λ.·· ·'./ '·· V.„ 9 de gequantiseerde kleur daarvan bedoeld. In een alternatieve vorm zou hiervoor ook de gemiddelde RGB-waarde van de oorspronkelijke kleuren van alle afzonderlijke pixels van zo een element kunnen worden gebruikt.

Tenslotte worden de resultaten van de toewijzing doorgegeven aan de 5 samenstellingsmodule 36, die de voorgrond - verbonden componenten samenstelt tot afzonderlijke informatie-eenheden. Deze worden, met hun posities, doorgegeven aan de interpretatie-eenheden.

Nu alle elementen in het digitale beeld zijn ingedeeld in twee categorieën, namelijk voorgrond en achtergrond, kunnen de conventionele interpretatie-bewerkingen 10 worden toegepast, in dit voorbeeld lay-out-analyse, gevolgd door karakterherkenning. Lay-out-analyse is bijvoorbeeld beschreven in EP 0 629 078 B en in andere documenten, waarvan er enkele genoemd zijn in de inleiding van EP 0 629 078 B. Deze bewerking maakt geen deel uit van de huidige uitvinding.

Voorbeelden van de werking van de voorbewerkingseenheid 21 zoals die 15 hierboven is beschreven worden getoond in Pig. 6 A, B en C en Fig. 7 A, B en C. In Fig. 6 A is een sterk vergroot gedeelte van een gescand beeld weergegeven. De grijstinten in de figuur geven verschillende kleuren aan, waarvan sommige onderling maar weinig verschillen. Het is voor een automaat niet a priori vast te stellen, welke pixels informatiedragend zijn en welke niet, ook al heeft een menselijke waarnemer hier in het 20 geheel geen moeite mee. Wanneer alle pixels met een kleur die afwijkt van de achtergrond zouden worden toegekend aan de voorgrond, dus aan het informatie-element, dan zouden de drie afgebeelde cijfers een geheel vormen, omdat er tussen de afzondelijke cijfers “bruggen” (51,52) van pixels met een overgangskleur liggen. Deze overgangskleuren zijn het gevolg van de beperkte resolutie van de scanner, waardoor 25 op de randen van de cijfers pixels worden gegenereerd met een grijstint die met de gemiddelde grijswaarde van het gedeeltelijk witte, gedeeltelijk zwarte pixel overeenkomen. Bovendien veroorzaakt het optische systeem van de scanner overstraling van de overgangen tussen voor- en achtergrond, wat resulteert in de geconstateerde “bruggen”.

30 De scandata worden vervolgens onderworpen aan een kleurquantisatie in de module 31, en het resultaat daarvan wordt getoond in Fig. 6 B. De verschillende grijstinten hierin corresponderen met verschillende gequantiseerde kleuren. Duidelijk is te zien, dat de begrenzingen van de cijfers nog steeds verschillende kleuren bevatten, en dat de quantisatie in dit geval ook niet heeft geleid tot eliminatie van de “bruggen” 51, 35 52. Ondanks de beperking in het aantal kleuren is verdere automatische interpretatie ? h .. 1

<9 '\4? * V' ïé V

10 nog steeds niet niet goed mogelijk.

Fig. 6 C toont het resultaat van de modules 32 - 36, waaruit blijkt, dat nu alle storingen zijn verwijderd, zodat de scandata nu geschikt zijn voor verdere interpretatie.

In Fig. 7 A is een andere verstoring van de scandata weergegeven. Hierin zijn 5 kleurverschillen aanwezig in de karakters, zoals bijvoorbeeld zichtbaar is in het bovenste gedeelte van de letter “a”, dat uit twee verschillend gekleurde stukken 53,54 bestaat. Bij de daaropvolgende kleurquantisatie blijken deze verschillende kleuren in verschillende kleurcodes 55,56 gequantiseerd te worden (Fig. 7 B). Deze opdeling kan ontstaan, wanneer de gemiddelde kleur van een karakter juist op de grens ligt van twee 10 gequantiseerde kleuren. Zeer kleine kleurverschillen in het gescande beeld van het karakter kunnen dan juist de grens overschrijden en nu eens de ene, dan weer de andere gequantiseerde kleur doen selecteren.

Dit effect maakt automatische interpretatie geheel onmogelijk, omdat er nu zelfs geen basisvormen meer beschikbaar zijn in een enkele kleur. Echter, bij de bewerking 15 in de modules 32 - 36 blijken de verschillend gekleurde fragmenten toch weer te zijn samengevoegd tot de juiste karaktervormen (Fig. 7 C).

Hoewel de uitvinding is toegelicht aan de hand van de bovenstaande beschrijving, is zij hier niet toe beperkt. De vakman zal zich realiseren dat binnen de reikwijdte van de navolgende conclusies alternatieve uitvoeringen mogelijk zijn, Deze worden geacht 20 binnen de beschermingsomvang van het octrooi te zijn begrepen.

·.

Claims

1. Werkwijze voor het extraheren van informatie-elementen uit een kleurbevattend digitaal beeld, 5 omvattende: - het in het digitale beeld onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur; , - het indelen van achtergrond - verbonden-componenten en andere verbonden componenten en het groeperen van aaneengrenzende genoemde andere verbonden 10 componenten; - het toewijzen van verbonden componenten, behorende tot een groep genoemde andere verbonden componenten, aan een voorgrond of aan de achtergrond op grond van een voorafbepaald toewijzingscriterium; en - het samenvoegen van aaneengrenzende, aan de voorgrond toegewezen 15 verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.

2. Werkwijze volgens conclusie 1, tevens omvattende een voorbereidingsstap welke omvat: 20. het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren in een beperkt aantal gequantiseerde kleuren en het vervangen van oorspronkelijk in de beeldsignalen voorkomende kleuren door gequantiseerde kleuren.

3. Werkwijze volgens conclusie 1 of 2, waarin 25 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van een groep genoemde andere verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft. 30

4. Werkwijze volgens conclusie 3, waarin het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met het gemiddelde van de kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 35 component deel van uitmaakt en met de kleur van de achtergrond - verbonden-component.

5. Werkwijze volgens conclusie 4, waarin het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 5 kleuren van de groep verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt dan met de kleur van de achtergrond - verbonden-component, de toe te wijzen verbonden component wordt toegewezen aan de voorgrond.

6. Werkwijze volgens conclusie 1 of 2, waarin de genoemde andere verbonden componenten eerst op grond van hun eigenschappen worden ingedeeld in typen en waarin alleen verbonden componenten van voorafbepaalde typen geanalyseerd met het genoemde toewijzingscriterium. 15

7. Werkwijze voor het automatisch interpreteren van een kleurbevattend digitaal beeld, omvattende het extraheren van informatie-elementen uit het kleurbevattende digitale beeld volgens een der voorgaande conclusies en 20 het uitvoeren van een automatische interpretatie-bewerking op basis van de ge ëxtraheerde informatie-elementen.

8. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een lay-out-analyse omvat. 25

9. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een karakterherkenning omvat.

10. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een 30 herkenning van grafisch elementen in het beeld omvat.

11. Inrichting voor het extraheren van informatie-elementen uit een kleurbevattend digitaal beeld, omvattende: - ontvangstmiddelen voor het ontvangen van een digitale beeldsignalen 35 overeenkomend met een kleurbevattend beeld; . J - een classificatiemodule voor het in de digitale beeldsignalen onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur; - een indelingsmodule voor het indelen van achtergrond - verbonden-componenten en andere verbonden componenten en het groeperen van 5 aaneengrenzende genoemde andere verbonden componenten; - een toekenningsmodule voor het toewijzen van verbonden componenten aan een voorgrond of aan de achtergrond op grond van een voorafbepaald toewijzingscriterium; en - een samenstellingsmodule voor het samenvoegen van aaneengrenzende, aan 10 voorgrond toegewezen verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.

12. Inrichting volgens conclusie 11, tevens omvattende - een kleurquantisatiemodule voor het quantiseren van de in te bewerken digitale 15 beeldsignalen voorkomende kleuren in een beperkt aantal gequantiseerde kleuren en het vervangen van oorspronkelijk in de beeldsignalen voorkomende kleuren door gequantiseerde kleuren.

13. Inrichting volgens conclusie 11 of 12, waarin 20 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van een groep genoemde andere verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft. 25

14. Inrichting volgens conclusie 13, waarin het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met het gemiddelde van de kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 30 component deel van uitmaakt en met de kleur van de achtergrond - verbonden-component.

15. Inrichting volgens conclusie 14, waarin het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een 35 toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 1 n ... , . 4 .Ίι kleuren van de groep verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt dan met de kleur van de achtergrond - verbonden-component, de toe te wijzen verbonden component wordt toegewezen aan de voorgrond. 5

16. Inrichting volgens conclusie 11 of 12, waarin de classificatiemodule is voorzien van middelen om genoemde andere verbonden componenten op grond van hun eigenschappen te classeren in typen en waarin een selectiemodule aanwezig is voor het selecteren van verbonden 1 o componenten van voorafbepaalde typen en alleen de geselecteerde verbonden componenten door te geven aan de verdelingsmodule.

17. Inrichting voor het automatisch interpreteren van een kleurbevattend digitaal beeld, omvattende 15 een inrichting voor het extraheren van informatie-elementen uit het kleurbevattende digitale beeld volgens een der conclusies 8 tot en met 13, en een interpretatie-eenheid voor het uitvoeren van een automatische interpretatie-bewerking op basis van de ge-extraheerde informatie-elementen.

18. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een lay-out-analyse omvat.

19. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een karakterherkenning omvat. 25

20. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een herkenning van grafisch elementen in het beeld omvat.

21. Computerprogramma-product met programmacode die op een door een machine 30 uitleesbare drager is opgeslagen, voor het uitvoeren van de werkwijze volgens een der conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer wordt uitgevoerd.

22. Computerprogramma voor het uitvoeren van alle stappen volgens een der 35 conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer wordt uitgevoerd. ‘<*43