NL8006371A - Werkwijze en inrichting voor karaktersegmentatie. - Google Patents

Werkwijze en inrichting voor karaktersegmentatie. Download PDF

Info

Publication number
NL8006371A
NL8006371A NL8006371A NL8006371A NL8006371A NL 8006371 A NL8006371 A NL 8006371A NL 8006371 A NL8006371 A NL 8006371A NL 8006371 A NL8006371 A NL 8006371A NL 8006371 A NL8006371 A NL 8006371A
Authority
NL
Netherlands
Prior art keywords
character
segment
segments
determining
values
Prior art date
Application number
NL8006371A
Other languages
English (en)
Other versions
NL183790C (nl
NL183790B (nl
Original Assignee
Nederlanden Staat
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlanden Staat filed Critical Nederlanden Staat
Priority to NLAANVRAGE8006371,A priority Critical patent/NL183790C/nl
Priority to EP81201232A priority patent/EP0052902A1/en
Priority to US06/319,803 priority patent/US4466121A/en
Publication of NL8006371A publication Critical patent/NL8006371A/nl
Publication of NL183790B publication Critical patent/NL183790B/nl
Application granted granted Critical
Publication of NL183790C publication Critical patent/NL183790C/nl

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

IV " '.........."........" ......... ...... ........... .................... ' ........' ί V0 1289 - 1 -
Werkwijze en inrichting voor karaktersegmentatie.
De uitvinding heeft betrekking op een werkwijze en een inrichting voor het segmenteren van met een overwegend gelijke steek op een regel geplaatste karakters, waarbij elk karakter wordt omgezet in een beeldelementenpatroon.
5 Dergelijke werkwijzen en inrichtingen zijn van algemene bekendheid.
Een bezwaar van de bekende inrichtingen is dat zij minder geschikt zijn voor het segmenteren van karakters van slechte kwaliteit.
In het bijzonder bij poststukken zijn adressen opgebouwd uit met een schrijfmachine of regeldrukker opgebrachte karakters, die onderling een 10 overwegend gelijke steek hebben. Desalniettemin kunnen ook hier, door machine-afwijkingen, per karakter zodanig grote steekafwijkingen optreden dat de segmentatie van de karakters problemen oplevert.
Op zichzelf is het herkennen van een grondfrekwentie in een signaal bekend uit de techniek van de spraakherkenning. Daar doet zich echter 15 niet het probleem van spaties voor zoals in regels met karakters. Juist de aanwezigheid van deze spaties ineen karakterregel kan de gevonden grondfrekwentie in het van de karakterregel afgeleide signaal niet onaanzienlijk beïnvloeden.
On dit bezwaar te vermijden is eerder voorgesteld de karakters van de 20 regels stuk voor stuk te scheiden en voor herkenning aan een herken- 8 0 06 37 1 ι » waning s schakeling toe te voeren. Deze aanpak heeft als bezwaar dat de aanwezigheid van overlappend afgedrukte karakters en onderlijning van de karakterregel verstorend kunnen werken. Daarnaast kan het bijvoorbeeld bij het herkennen van karakters op poststukken van belang 5 zijn een bepaalde groepering van karakters te kunnen herkennen.
Het is een doelstelling van de uitvinding een werkwijze en een inrichting van de genoemde soort te verschaffen, die de bovengenoemde bezwaren niet kennen.
De werkwijze en de inrichting volgens de uitvinding berusten daarbij 10 op het inzicht dat de karaktersteek voor een gehele karakterregel eenvoudig bepaald kan worden door het ëên voor ëën leggen van een aantal kammen met een verschillende tandsteek over de karakterregel en vervolgens te bezien hoeveel karakters en spaties herkend worden door tussen de tanden van iedere kam door te kijken.
15 De werkwijze volgens de uitvinding vindt hier plaats door te handelen volgens een elektrisch analogon van het hierboven geschetste beeld. Daartoe wordt de werkwijze volgens de uitvinding gekenmerkt door - het vaststellen van een uiterste karakterpositie op de te segmenteren karakterregel; ' 20 - het telkens met een vaste steek verdelen van de karakterregel in seg menten, uitgaande van de uiterste karakterpositie; - het classificeren naar vaste eigenschappen van de inhoud van elk der segmenten in spatiebevattende, karakterbevattende en overige segmenten en 25 - het vaststellen van de segmentbreedte waarbij binnen de karakterregel een zo groot mogelijk aantal spatie- en karakterbevattende segmenten en een zo klein mogelijk aantal overige segmenten geclassificeerd is.
Volgens een nader kenmerk van de werkwijze wordt de uiterste karakter-30 positie vastgesteld door aan ieder der beeldelementen die te zamen een karakterbeeld vormen een grijswaarde toe te kennen; de grijswaarden van de beeldelementen per kolom te sommeren; aan de hand van een vaste verhouding een maximum gesommeerde, een minimum gesommeerde en een 80 06 37 1 m i - 3 - drempel-grijswaarde vast te stellen voor de gehele te segmenteren karakterregel en als uiterste karakterpositie die per kolom gesommeerde grijswaarden aan te wijzen, waarvan, gezien vanaf een uiteinde der karakterregel, de eerste grijswaardekolom die van de drempel-grijswaar-5 de overschrijdt.
Volgens nog een nader kenmerk van de werkwijze wordt elk der segmenten beschouwd op een vast aantal punten, waarvan bij het samenvallen van het midden van een segment van geschikte breedte met het midden van een t -· karakter tenminste een van de punten te ener zijde en tenminste ëén 10 ander van de punten te anderer zijde van het karakter valt, waarbij tenminste één der overige punten met een grijswaardekolom van het karakter samenvalt.
Voorts verschaft de uitvinding een inrichting voor de tenuitvoerlegging van de genoemde werkwijze(n), omvattende middelen voor het synchroniseren 15 van het eerste segment met het eerste karakter op·de karakterregel, middelen voor het indelen van de karakterregel in segmenten, classifi-catiemiddelen voor het indelen van de binnen elk der segmenten aangetroffen informatie, als karakter, als spatie of als niet-spatie, en middelen voor het onderling vergelijken van de classificatieresultaten 20 van elke onderzochte segmentbreedte.
De uitvinding zal nu nader worden toegelicht aan de hand van de tekening, waarin wordt voorgesteld door
Fig. 1 een functieschema van de werkwijze volgens de uitvinding;
Fig. 2 een voorbeeld van de omzetting van karakters (2a) in een 25 beeldelementenpatroon (2b) en van de verticale projectie (2c) van de grijswaarden van zo’n beeldelementenpatroan;
Fig. 3 een blokdiagram van een inrichting volgens de uitvinding;
Fig. 4 een blokschema van een voorkeursuitvoering van een synchronisatie- en segmentatie-eenheid; 30 Fig. 5 een blokschema van een voorkeursuitvoering van een classifi-catie-eenheid;
Fig. 6 een correlatieschakeling.
8006371 - 4 - *.· *
Fig. 1 geeft in de vorm van een functieblokschema een indruk van de werkwijze volgens de uitvinding.
Een eerste stap I cravat het, op een op zichzelf bekende wijze, digitaliseren van de karakterregel.
5 Een tweede stap 2 omvat het vinden van een startpositie voor een eerste steekgrootte S.
Volgens een derde stap 3 wordt de inhoud van ieder segment bepaald voor de gekozen steek.
Volgens een vierde stap 4 wordt bepaald welke segmenten een karakter, 10 welke een spatie en welke een niet-spatie bevatten.
Volgens een volgende stap 5 wordt aan de hand van de resultaten van de voorgaande stap 4 een correlatiefactor vastgesteld voor de bij de gekozen steek behorende resultaten.
Volgens een laatste stap 6 wordt bepaald bij welke steek S de vastge-15 stelde correlatiefactor het grootst is.
Ieder der stappen zal hieronder nader worden toegelicht.
1. Het digitaliseren, dat is het omzetten van het beeld van een karakterregel in een beeldelementenpatroon en de verticale projectie daarvan.
20 Fig. 2a stelt een willekeurige karakterregel voor. Deze karakterregel wordt nu eerst omgezet in een beeldelementenpatroon (Fig, 2b). Aan elk der beeldelementen wordt nu een waarde toegekend, die een maat is voor de grijswaarde van dat beeldelement. Per kolom beeldelementen worden deze grijswaarden van de beeldelementen nu opgeteld. Fig. 2c geeft een 25 diagram van de aldus opgetelde grijswaarden, waarbij ter wille van de eenvoud van de figuur aan ieder beeldelement dezelfde grijswaarde is toegekend, terwijl het aantal beeldelementen per karakter sterk is gereduceerd. In de praktijk komt de hoogte van een karakter overeen met ongeveer 32 beeldelementen, de breedte van een karakterregel 30 met 256 beeldelementen, terwijl de grijswaarde van ieder beeldelement in 256 verschillende waarden uitgedrukt kan worden.
De hierna volgende stappen 2, 3, 4 en 5 worden telkens voor een verschillende segmentbreedte (steek) uitgevoerd en zullen, daar zij 8006371 - 5 - identiek zijn, slechts voor een bepaalde segmentbreedte besproken worden.
2, Het bepalen van een startpositie van de regel.
Allereerst wordt een segmentbreedte S gekozen. In de praktijk blijkt het voldoende wanneer de kleinste gekozen segmentbreedte overeenkomt 5 met 9 beeldelementen en de grootste segmentbreedte met 30 beeldelementen. Om te voorkomen dat voor ieder segment een groot en wisselend aantal kolcmwaarden onderzocht moet worden, zal een segment beschreven geacht worden door een gering en vast aantal kolommen. In het uitvoering svoorbeeld zijn dit vijf kolommen. Wanneer een segment juist over-10 eenkcmt met een karakter, zowel wat ligging ten opzichte van het karakter als wat breedte betreft, moeten de twee buitenste kolomposities juist buiten het karakter vallen; de grijswaardering van deze kolcm-posities worden daarom respectievelijk linker-vallei (LV) en rechter vallei (RV) genoemd. De overige drie kolomposities worden genoemd 15 linker piek (LP), middelste piek (MP) en rechter piek (RP). Bij wijze van voorbeeld zijn deze vijf kolomposities in Fig. 2d aangeduid ten opzichte van het middelste aldaar getekende karakter. In de praktijk is gebleken dat een afstand LV - LP = -g* S, LV - MP = S, LV - EP = S - I en LV - RV * S + 1 een goede verdeling is.
20 Vervolgens wordt van alle grijswaardekolommen (Fig. 2c) van de gehele regel de maximumwaarde MAX en de minimumwaarde MIN bepaald. MIN behoeft niet noodzakelijkerwijs nul te zijn; wanneer de te segmenteren karakter-regel onderlijnd is geeft MIN de grijswaarde van de onderlijning. Een gemiddeld grijswaardeniveau THRES wordt nu afgeleid van de waarden MAX 25 en MIN en gedefinieerd als; THRES = MIN + o (MAX - MIN) (1) sync waarbij 0 < α < 1. In de praktijk blijkt α = 0,3 een ge-sync sync schikte keuze.
Voor het bepalen van de plaats van het eerste karakter wordt nu een 30 zogenaamde segment-positioneringsfactor (SPF) berekend, die gedefinieerd wordt als SPF * (MAX - LV) + LP + MP + EP + (MAX - RV) - [ LV - BV | (2) Daarna wordt de uiterste grijswaarde op de karakterregel bepaald, 8006371 4 < - 6 - waarvan de grijswaarde groter is dan het gemiddelde niveau THRES. De grijswaardekolom waarop dit niveau als eerste wordt aangetroffen wordt kg genoemd. Nu wordt voor alle grijswaardekolonmen k, waarvoor geldt ko 'I * k * ko +1 (3) 5 SPF bepaald. De grijswaardekolom waarin SPF maximaal is wordt kj genoemd en geldt als startpositie van de regel. De grijswaardekolom kj wordt nu geacht samen te vallen met de linker vallei LV van het eerste segment w^. De hierboven omschreven stappen, die dienen voor het synchroniseren van het eerste· segment met het.eerste karakter worden 10 gezamenlijk aangeduid als synchronisatie.
3. De segmentatie van de karakterregel.
Uitgaande van de grijswaardekolom kj wordt nu eerst SPF voor het gebied tussen kj en kj + S bepaald. De waarden k^ en SPF worden in een geheugen opgeslagen. Vervolgens wordt de beginplaats voor het volgende 15 segment bepaald door kj+ S. Omdat de indeling van de karakterregel in punten aanleiding geeft tot bemonsteringsfouten wordt nu van elk van de segmenten, die respectievelijk op k£ - I, k^ en k^ + 1 beginnen, SPF bepaald. De k-waarde waarbij de grootste SPF wordt gevonden geldt als de juiste en dient als uitgangspunt voor het bepalen van k^* 20 Wanneer echter over een breedte S geen grijswaarden boven de waarde THRES aangetroffen worden, wordt aangenomen dat het segment een spatie bevat en wordt de volgende k bepaald door k^ + S. Op deze wijze wordt voor ieder segment w een beginwaarde k vastgesteld, een waarde voor SPF en de waarden LV, LP, MP, RP en RV.
25 4. Het classificeren van de segmentinhoud.
Zodra van alle segmenten de bovengenoemde waarden vastgesteld zijn, wordt een gemiddelde waarde LAV en een standaarddeviatie SD bepaald voor alle waarden van LV en RV.
1 W
LAV = Σ (LV + RV) (4)
w=I
30 Het is evident dat de standaarddeviatie nul zal zijn, wanneer ieder 8006371 - 7 - segment precies op een karakter past. De gemiddelde waarde LAV geeft dan de achtergrondruis weer die mede kan ontstaan door de reeds eerder genoemde onderlijning van de karakterregel. Bij een juiste segmentatie kan dus de achtergrondruis LQ gedefinieerd worden als 5 LQ - LAV - SD ' (5)
Een maat Q voor de bruikbare informatie is dan Q = MAX - LQ (6)
Om te beslissen of een segment een spatie of een karakter bevat worden de volgende criteria aangelegd: 10 1) tot een spatie wordt besloten wanneer het grijswaardeniveau van alle kolommen binnen een segment kleiner of gelijk is aan h - (7) waarbij in de praktijk voor et * 0,3 een geschikte maat is; s 2) tot een karakter wordt besloten als er een kolom is waarvan de 15 grijswaarde groter is dan Lq + ctgQ en indien tevens LV < L_ + a Q en 0 v% BY < L + a Q en 0 v LP > LV en (8) RP > RV en 20 MP > Lrt + a Q of MP > LV en MP > RV; u m 3) In alle overige gevallen is sprake van een niet-spatie; dat wil zeggen volgens de de aangelegde 'criteria bevat het segment noch een spatie noch een karakter, 5. Het bepalen van de correlatiefactor.
25 Zoals hierboven reeds is aangegeven wordt iedere karakterregel bedekt met telkens een andere reeks segmenten van onderling gelijke of nagenoeg gelijke breedte. Om te bezien bij welke segmentbreedte de meeste karakters en spaties overeenkomen met een segment, wordt aan ieder segmentatieresultaat een waarde toegekend, de correlatiefactor C^.
80 06 37 1 - 8 -
Daartoe wordt aan ieder segment een waarde SC toegekend op de navolgende wijze. Om de invloed van de achtergrondruis Lq te elimineren en daarmee tevens de storende invloed van eventuele onderlijning te onderdrukken wordt iedere grijswaardekolom genormaliseerd tussen LQ 5 en Lq + Q (formule 6). De aldus genormaliseerde waarden van LV, LP, MP, RP en RV worden dan aangeduid als respectievelijk LV’, LP', MP', RP' en RV'. Voor een spatiesegment dat een spatie bevat geldt dan SC = 0. Voor alle andere segmenten geldt SC = 1 - LV' + LP' + MP' + RP’ + 1 - RV' · (10) 10 De totale waarde TSC voor een in segmenten opgedeelde regel wordt bepaald door een sommering van de waarden van elk der segmenten. De hierboven aangeduide correlatiefactor wordt bepaald door de waarde TSC, het aantal segmenten U waarin een karakter wordt aangetroffen, het aantal segmenten V waarin een spatie wordt aangetroffen, de standaarddeviatie 15 SD en de gevonden waarde Q, in de volgende verhouding: „ TSC - ü t, SDs CI,"W-VXW-VX^I“q^ 6. Vaststelling van de grootste correlatiefactor.
Een zelfde bewerking als hierboven beschreven in de paragrafen 2 tot en met 5 wordt nu uitgevoerd voor elk der mogelijk geachte segmentbreedten. 20 Voor elk dezer verdelingen kan een correlatiefactor C_ worden vastge- Γ steld. Het is duidelijk dat die segmentbreedte waarbij de correlatiefactor Cp de grootste is, de meest waarschijnlijke segmentbreedte is.
De werkwijze volgens de uitvinding geeft op deze wijze een betrouwbare segmentatie van karakters en spaties op een karakterregel, en heeft 25 als bijzonder voordeel dat door de benoeming van ieder segment op eenvoudige wijze bepaalde groepen karakters en spaties herkend kunnen worden. Hierdoor kan op een eenvoudige wijze de plaats van een postcode gedetecteerd worden.
De inrichting is in hoofdzaak op te delen als getekend in Fig. 3 en 30 omvat een opname-inrichting 7, welke het optische signaal van de te segmenteren karakterregels omzet in een electrisch signaal van beeld- 8006371 r - 9 - punten. Een dergelijke opname-inrichting kan hetzij een TV-camera omvatten hetzij een diodereeks en is verder van algemene bekendheid.
Een voorbewerkingseenheid 8 draagt zorg voor het detecteren en corrigeren van een niet recht karakterregelverloop of van niet recht 5 gedrukte karakters. De voorbewerkingseenheid 8 draagt volgens bekende technieken zorg voor het omzetten van het signaal van de opname- inrichting 7. Aangezien de hoogte van ieder karakter wordt weergegeven met maximaal 32 beeldpunten en elk beeldpunt zoals gezegd in maximaal 256 verschillende grijswaarden, kunnen alle beeldpunten van een kolom 8 5 13 10 weergegeven worden met 2 x 2 = 2 binaire eenheden. De breedte van een te segmenteren regel bedraagt 256 beeldpunten, zodat de totale door de voorbewerkingseenheid 8 gedigitaliseerde informatie weergegeven kan worden door 256 x 13 bits. De wijze waarop dit gebeurt is van algemene bekendheid en zal, daar zij geen wezenlijk onderdeel van de 15 onderhavige uitvinding uitmaakt, hier niet nader worden toegelicht.
Het elektrisch analogon van het beeld volgens Eig. 2c wordt daarna toegevoerd aan een synchronisatie- en segmentatie-eenheid 9, welke nader uitgewerkt wordt in Fig. 4. Een classificatie-eenheid 10 deelt de gevonden segmenten in naar hun aard: karakter, spatie of niet-spatie, 20 volgens de hierboven toegelichte criteria.
De classificatie-eenheid wordt nader beschreven in Fig. 5. De aldus gevonden classificatiegegevens worden toegevoerd aan een correlatie-schakeling II voor het vaststellen van de maximale correlatiefactor.
Het elektrisch analogon van de geprojecteerde beeldpunten dat toege-25 voerd wordt aan de synchronisatie- en segmentatie-eenheid 9 wordt opgenomen in een geheugen 12 (Fig. 4) van 256 x 13 bits, dat uitgevoerd is als een adresseerbaar geheugen (RAM).
Een vergelijkschakeling 13 stelt de niveaux THEES en MAX vast. Vervolgens stelt een vergelijk- en telschakeling 14 de eerste kolom 30 beeldpunten kg vast, waarvan de in het geheugen 12 opgeslagen waarde die van het THRES-niveau te boven gaat. Een vergelijk- en telschakeling 15 vergelijkt de waarden van het geheugen 12 over een aantal stappen 80 06 37 1 -lotussen de grenzen kg +_ S^, waarbij gebruik gemaakt wordt van de door het geheugen (ROM) 16 aangegeven waarde. Bij de eerste cyclus zal de inhoudswaarde van het RCM 16, die de te onderzoeken segmentbreedte S in beeldpunten bevat, gelijk blijven. In de praktijk blijkt een laagste 5 waarde voor S^. van 9 beeldpunten ruimschoots voldoende.
Een generator 1 7 genereert de waarden van de kolom k waarop het eerste karakter geacht wordt aanwezig te zijn en vergelijkt de waarde van k met die van een detector 18, welke de hoogste waarde van de coördinaat in het geheugen 12 waarop nog een mogelijk karakter gede-10 tecteerd is kan vaststellen. Een telschakeling met geheugen 19 kan telkens nadat een eerste waarde k gevonden is, de volgende waarde vaststellen zoals bij de werkwijzebeschrijving nader is toegelicht. Een vergelijkschakeling 20 onderzoekt of zich binnen het door de k generator 17 aangegeven gebied voldoende waarden bevinden. Wanneer geen grijswaar-15 den boven THRES worden aangetroffen, wordt een signaal op de uitgang gegeven ten teken dat het onderzochte segment als spatie herkend is. Een seg-mentverdeelschakeling 21 stelt nu·, aan de hand van de inhoud van het geheugen 12, van de geldende segmentbreedte en van de door de generator 17 weergegeven k-waarden, de ligging van vijf punten Pq, Pj , P^ en 20 P^ vast; voor de geldende waarden van w en Sv blijken in de praktijk de volgende posities een goede verdeling te geven: PQ=k; P1-k+|;P2-k+i;P3-k+^-l;P4-k+S+l.
Uit de op de punten Pq tot en met P^ gevonden waarden LV, LP, MP, SP en RV wordt door een segmentpositioneerschakeling 22 de segmentpositione-25 ringsfactor vastgesteld volgens de hierboven gegeven formule (2). Een vergelijkschakeling 23 houdt dë laatste SPF-waarde vast en vervangt deze door een volgende, wanneer deze groter is dan de voorgaande. De waarden LV, LP, MP, RP en RV behorend bij de grootste waarde van SPE worden telkens opgeslagen in een geheugen 24. In een tabellarisch 30 geheugen (RAM) 25 worden kolomsgewijs voor ieder segmentnummer w, dat via een ingang 26 toegevoerd wordt vanuit de classificatie-eenheid 10, de begincoördinaat k en de coördinatie van de punten Pq tot en met P^ vastgelegd, waarbij SPF maximaal is. Voorts omvat de schakeling 9 nog 8006371 s c - 11 - uitgangen 27 via welke de in het geheugen 25 opgeslagen waarden naar de achterliggende schakeling doorgevoerd kunnen worden; uitgangen 28, 29, 30 en 31 voor het naar buiten uitvoeren van respectievelijk het maximale cumulatieve grijswaardenniveau, de inhoud van het geheugen 12, 5 het totaal aantal segmenten W van de regel, het aantal beeldpunten per segment S en een ingang 32 voor het veranderen van het adres van het geheugen 16, waarmede een volgende waarde .voor de steek S ingesteld kan worden. De classificatie-eenheid 10 welke nader gedetailleerd is weergegeven in Fig. 5 omvat een sorameringsschakeling 33 voor het som-10 meren van de waarden LV en RV uit het geheugen 25 voor het vaststellen van de gemiddelde waarde LAV van de grijswaarden in de linker en rechter vallei van elk segment. Daartoe voert de schakeling 33 de volgende bewerking uit: U7-èJiav + ET)· 15 Een schakeling 34 berekent de standaarddeviatie SD van de waarden LV en RV. Zoals reeds eerder is opgemerkt zijn deze twee waarden een maat voor de juistheid van de gekozen segmentbreedte S. Immers bij een juiste segmentbreedte zal de standaarddeviatie SD nagenoeg gelijk aan nul zijn. Een aftrekschakeling 35 bepaalt nu het verschil tussen de 20 gemiddelde waarde LAV en de standaarddeviatie SD. Een aftrekschakeling 35a trekt de door de schakeling 35 gevonden waarde af van het maximum grijswaardeniveau MAX en de aldus gevonden waarde Q - zie formule (6) - wordt toegevoerd aan een beslisschakeling 36 die aan de hand van de daaraan toegevoerde waarden van de ingestelde steek S, het aantal 25 segmenten W, de gesommeerde grijswaarden LV, LP, MP, RP en RV, de coördinaten k en de waarden uit het register' 12 (Fig. 4) vaststelt in welk der segmenten een spatie, een karakter of een niet-spatie wordt gevonden. Met een instelschakelaar 37 kunnen de waarden voor a , α , sync o
Oy, en aG ingesteld worden. Op een uitgang 38 wordt aangegeven als 30 een segment een spatie bevat. Op een uitgang 39 volgt een signaal wanneer een segment een karakter bevat. Een uitgang 40 geeft aan wanneer een segment een niet-spatie bevat. Voorts worden de waarden LV, LP, MP, RP, RV, Q, Lq, SD én w uitgevoerd naar de in Fig. 6 weergegeven 80 06 37 1 - 12 - * correlatieschakeling 11. De correlatieschakeling 11 omvat een drempel-schakeling 41 voor het normaliseren van elk der waarden LV, LP, MP, RP en RV ten opzichte van de gemiddelde grijswaarde Lq en de waarde Q. De aldus genormaliseerde waarden worden toegevoerd aan een waarderings-5 schakeling 42, die de bewerking volgens formule (10) uitvoert. Een selector 43 schakelt, onder besturing van SC, in het geval van een spatie de waarde "O" door naar zijn uitgang en wanneer het desbetreffende segment geen spatie bevat, de door de schakeling 42 vastgestelde waarde. Een integrator 44 telt de door de schakeling 42 vastgestelde 10 waarden voor alle segmenten bij elkaar op voor de vaststelling van de waarde TSC. Een rekenschakeling 45, een rekenschakeling 46 en een rekenschakeling 47 berekenen nu de drie factoren voor de formule (II), waarna een vermenigvuldigschakeling 48 de waarde voor C^, vaststelt.
Een differentieschakeling 49 vergelijkt de waarde van C^. met die van 15 voorgaande waarden, behorend bij een andere waarde van S en geeft op een uitgang 50 een signaal terug aan de ingang 32 (Pig. 4) voor het instellen van het ROM 16 op een eerstvolgende waarde van S. Een geheugens chake ling 51 neemt telkens de grootste voor C^, gevonden waarde op met de daarbij behorende segmentbreedte S. Wanneer voor elk der 20 waarden van S de correlatiefactor Cp bepaald is, verschijnt aan een uitgang 52 de waarde van dè segmentbreedte S waarvoor de correlatie- factor C_ maximaal is.
F
Het behoeft geen betoog dat de hierboven beschreven inrichting voor de uitvoering van de werkwijze(n) volgens de uitvinding slechts een uit-25 voeringsvoorbeeld betreft.
Van de uitgangen 27 van het geheugen 25 kunnen voorts de patronen van de karakters en spaties afgeleid worden, waarmede op eenvoudige wijze de plaats van een bepaalde karakterconfiguratie, zoals een postcode, afgeleid kan worden.
30 De uitvinding verschaft aldus een inrichting voor het ten uitvoerleggen van de hierboven omschreven werkwijze, die zelfs bij een slechte drukkwaliteit van de te segmenteren karakterregel een goede segmentatie waarborgt.
800637!

Claims (6)

1. Werkwijze voor het segmenteren van met een overwegend gelijke steek op een regel geplaatste karakters, waarbij elk karakter wordt omgezet in een beeldelementenpatroon, gekenmerkt door - het vaststellen van een uiterste karakterpositie op de te segmenteren 5 karakterregel; - het telkens met een vaste steek verdelen van de karakterregel in segmenten, uitgaande van de uiterste karakterpositie; - het classificeren naar vaste eigenschappen van de inhoud van elk der segmenten in spatiebevattende, karakterbevattende en overige segmen- 10 ten en - het vaststellen van de segmentbreedte waarbij binnen de karakterregel een zo groot mogelijk aantal spatie- en karakterbevattende segmenten en een zo klein mogelijk aantal overige segmenten geclassificeerd is.
2. Werkwijze volgens conclusie 1, met het kenmerk, dat de uiterste karakterpositie wordt vastgesteld door - aan ieder der beeldelementen die te zamen een karakterbeeld voimen een grijswaarde toe te kennen; - dé grijswaarden van de beeldelementen per kolom te sommeren; 20. aan de hand van een vaste verhouding een maximum gesommeerde, een minimum gesommeerde en een drempelgrijswaarde vast te stellen voor de gehele te segmenteren karakterregel en - als uiterste karakterpositie die per kolom gesommeerde grijswaarden aan te wijzen waarvan, gezien vanaf een uiteinde der karakterregel, 25 de eerste grijswaarde die van de drempelgrijswaarde overschrijdt.
3. Werkwijze volgens één of meer der voorgaande conclusies, met het kenmerk, dat elk der segmenten beschouwd op een vast aantal punten, waarvan bij het samenvallen van het midden van een segment van ge- 80 06 37 1 a - 14 - geschikte breedte met het midden van een karakter tenminste ëën van de punten te ener zijde en tenminste een andere van de punten te anderer zijde van het karakter valt, waarbij tenminste ëën der overige punten met een grijswaardekolom van het karakter samenvalt.
4. Inrichting voor het tenuitvoerleggen van de werkwijze volgens conclusie 1, gekenmerkt door middelen voor het synchroniseren van het eerste segment met het eerste karakter op de karakterregel, middelen voor het indelen van de karakterregel in segmenten, classificatie-middelen voor het indelen van de binnen elk der segmenten aangetroffen 10 informatie als karakter, als spatie of als niet-spatie en middelen voor het onderling vergelijken van de classificatieresultaten van elke onderzochte segmentbreedte.
5. Inrichting volgens conclusie 4, met het kenmerk, dat de synchro-nisatiemiddelen een vergelijkschakeling 13 omvatten, voor het onder- 15 ling vergelijken van de grijswaarden van de kolommen en het vaststellen \ van een drempelwaarde, een geheugen 12 voor het opnemen van de grijswaarden van elk der kolommen, een eerste vergelijk- en telschakeling 14 voor het vergelijken van de in het geheugen 12 opgenomen grijswaarden met de door de vergelijkschakeling 13 vastgestelde drempelwaarde, een 20 geheugen (RCM) 16 voor het vaststellen van de segmentbreedte, een tweede vergelijk- en telschakeling 15 voor het vaststellen van een positie van een grijswaardekolom op een afstand van een halve segmentbreedte vanaf de door de eerste vergelijk- en telschakeling 14 vastgestelde plaats van de uiterste in het geheugen 12 opgenamen grijswaarde-25 kolom, welke de door de vergelijkschakeling 13 vastgestelde drempelwaarde overschrijdt.
6. Inrichting volgens conclusie 5, gekenmerkt door een segementver-deelschakeling 21 voor het volgens een vaste regel vaststellen van vijf punten in het door het geheugen 16 vastgestelde segment, het vastellen 30 van de bij deze vijf punten behorende, in het geheugen 12 opgenomen, 8006371 a *9 - 15 - grijswaarden en het doorgeven van deze grijswaarden aan een segment-positioneerschakeling 22 voor het in vergelijking met het door de vergelijks chakeling 13 vastgestelde maximum grijswaardeniveau vaststellen van de ligging van een karakter of spatie ten opzichte van de ligging 5 van een segment, 8006371
NLAANVRAGE8006371,A 1980-11-21 1980-11-21 Werkwijze voor karaktersegmentatie. NL183790C (nl)

Priority Applications (3)

Application Number Priority Date Filing Date Title
NLAANVRAGE8006371,A NL183790C (nl) 1980-11-21 1980-11-21 Werkwijze voor karaktersegmentatie.
EP81201232A EP0052902A1 (en) 1980-11-21 1981-10-30 Method and device for character segmentation
US06/319,803 US4466121A (en) 1980-11-21 1981-11-09 Method and device for character segmentation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8006371 1980-11-21
NLAANVRAGE8006371,A NL183790C (nl) 1980-11-21 1980-11-21 Werkwijze voor karaktersegmentatie.

Publications (3)

Publication Number Publication Date
NL8006371A true NL8006371A (nl) 1982-06-16
NL183790B NL183790B (nl) 1988-08-16
NL183790C NL183790C (nl) 1989-01-16

Family

ID=19836222

Family Applications (1)

Application Number Title Priority Date Filing Date
NLAANVRAGE8006371,A NL183790C (nl) 1980-11-21 1980-11-21 Werkwijze voor karaktersegmentatie.

Country Status (3)

Country Link
US (1) US4466121A (nl)
EP (1) EP0052902A1 (nl)
NL (1) NL183790C (nl)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4562594A (en) * 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
JPH0731714B2 (ja) * 1986-05-29 1995-04-10 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字成分切出し方法
JPH0634256B2 (ja) * 1987-03-04 1994-05-02 シャープ株式会社 接触文字切出し方法
NL8901759A (nl) * 1989-07-10 1991-02-01 Nederland Ptt Werkwijze voor het detecteren van een streepcode.
US5091968A (en) * 1990-12-28 1992-02-25 Ncr Corporation Optical character recognition system and method
JP2821285B2 (ja) * 1991-07-23 1998-11-05 キヤノン株式会社 画像処理方法及び装置
DE69434131T2 (de) * 1993-05-05 2005-11-03 Koninklijke Philips Electronics N.V. Vorrichtung zur Segmentierung von aus Texturen bestehenden Bildern
JP3237975B2 (ja) * 1993-09-20 2001-12-10 富士通株式会社 画像処理装置
US5692069A (en) * 1995-03-17 1997-11-25 Eastman Kodak Company Apparatus for performing character segmentation using slant histograms
US6295371B1 (en) * 1998-10-22 2001-09-25 Xerox Corporation Method and apparatus for image processing employing image segmentation using tokenization
US7079686B2 (en) * 2002-08-20 2006-07-18 Lexmark International, Inc. Systems and methods for content-based document image enhancement
JP5357612B2 (ja) * 2009-04-13 2013-12-04 株式会社日立ソリューションズ 下線除去装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4206442A (en) * 1974-07-03 1980-06-03 Nippon Electric Co., Ltd. Letter segmenting apparatus for OCR comprising multi-level segmentor operable when binary segmenting fails

Also Published As

Publication number Publication date
US4466121A (en) 1984-08-14
EP0052902A1 (en) 1982-06-02
NL183790C (nl) 1989-01-16
NL183790B (nl) 1988-08-16

Similar Documents

Publication Publication Date Title
NL8006371A (nl) Werkwijze en inrichting voor karaktersegmentatie.
JP3264932B2 (ja) テキストを含む画像における背景から前景を分離する方法及び装置
US4083035A (en) Binary image minutiae detector
US5220620A (en) Color image data processing apparatus
EP0318950B1 (en) Image processing device
US20040165084A1 (en) Flicker detecting method and flicker detecting apparatus
EP0238027B1 (en) Optical character recognition apparatus
IE56452B1 (en) Image processors
US4850029A (en) Adaptive threshold circuit for image processing
US3727183A (en) A pattern recognition device including means for compensating for registration errors
KR900004812B1 (ko) 인쇄패턴의 농담과 균일성 평가장치
US5386482A (en) Address block location method and apparatus
US5317419A (en) Image recognition apparatus
US3252140A (en) Character recognition device employing pattern feature correlation
US3407386A (en) Character reading system
EP0144006A2 (en) An improved method of character recognitionand apparatus therefor
KR970001921B1 (ko) 다가 크기를 갖는 필드에서의 패턴 인식 방법 및 그 장치
US4607387A (en) Pattern check device
JPH0277891A (ja) 文字認識装置
JPH08106533A (ja) 識別装置
JPS60132281A (ja) 文字分離装置
CN116342638A (zh) 基于相变和扩散神经网络的图像元素提取方法
JPH0660226A (ja) 文字読取装置
JP3687999B2 (ja) 文字認識装置
JP2709301B2 (ja) 線条光抽出回路

Legal Events

Date Code Title Description
A1B A search report has been drawn up
A85 Still pending on 85-01-01
BC A request for examination has been filed
SNR Assignments of patents or rights arising from examined patent applications

Owner name: KONINKLIJKE PTT NEDERLAND N.V.

TNT Modifications of names of proprietors of patents or applicants of examined patent applications

Owner name: KONINKLIJKE KPN N.V.

V4 Discontinued because of reaching the maximum lifetime of a patent

Free format text: 20001121